• Chapter 11 —— Vector Autoregressions

    前一章介绍了描述向量时间序列过程的一些基本工具。本章更深入地探讨向量自回归,它们在估计和预测方面特别方便。本章首先讨论最大似然估计和假设检验。

    11.1 Maximum Likelihood Estimation and Hypothesis Testing for an Unrestricted Vector Autoregression

    The Conditional Likelihood Function for a Vector Autoregression

    yt 表示一个 (n×1) 向量,包含 n 个变量在日期 t 的值。假设 ytp 阶高斯向量自回归 VAR(p) 控制:

    (11.1.1)yt=c+Φ1yt1+Φ2yt2++Φpytp+εt,

    其中 εt i.i.d. N(0,Ω)

    假设我们观测到每个变量 (T+p) 个时间周期。与标量自回归一样,最简单的方法是以前 p 个观测值(记为 yp+1,yp+2,,y0)为条件,基于最后 T 个观测值(记为 y1,y2,,yT)进行估计,形成条件似然函数

    (11.1.2)fYT,YT1,,Y1Y0,Y1,,Yp+1(yT,yT1,,y1y0,y1,,yp+1;θ)

    并对 θ 最大化,其中 θ 是包含 cΦ1,Φ2,,ΦpΩ 的元素的向量。向量自回归通常基于条件似然函数 [11.1.2] 而不是全样本无条件似然进行估计。为简洁起见,我们以后将 [11.1.2] 简称为"似然函数",将最大化 [11.1.2] 的 θ 值称为"最大似然估计"。

    似然函数的计算方式与标量自回归相同。以到日期 t1 为止观测到的 y 值为条件,日期 ty 值等于常数

    (11.1.3)c+Φ1yt1+Φ2yt2++Φpytp,

    加上一个 N(0,Ω) 变量。因此,

    (11.1.4)ytyt1,yt2,,yp+1N((c+Φ1yt1+Φ2yt2++Φpytp),Ω).

    用更紧凑的表达式来表示条件均值 [11.1.3] ,设 xt 表示包含常数项和 y 的每个元素的 p 个滞后的向量:

    (11.1.5)xt[1yt1yt2ytp].

    因此,xt 是一个 [(np+1)×1] 向量。设 Π 表示以下 [n×(np+1)] 矩阵:

    (11.1.6)Π[cΦ1Φ2Φp].

    那么条件均值 [11.1.3] 等于 ΠxtΠ 的第 j 行包含 VAR 中第 j 个方程的参数。使用这种记号,[11.1.4] 可以更紧凑地写成

    (11.1.7)ytyt1,yt2,,yp+1N(Πxt,Ω).

    因此,第 t 个观测值的条件密度为

    fYtYt1,Yt2,,Ytp+1(ytyt1,yt2,,yp+1;θ)(11.1.8)=(2π)n/2|Ω1|1/2exp[(1/2)(ytΠxt)Ω1(ytΠxt)].

    y0,y1,,yp+1 为条件的观测值 1 到 t 的联合密度满足

    fYt,Yt1,,Y1Y0,Y1,,Yp+1(yt,yt1,,y1y0,y1,,yp+1;θ)=fYt1,,Y1Y0,Y1,,Yp+1(yt1,,y1y0,y1,,yp+1;θ)×fYtYt1,Yt2,,Yp+1(ytyt1,yt2,,yp+1;θ).

    递归应用此公式,以 y0,y1,,yp+1 为条件的全样本 yT,yT1,,y1 的似然函数是各个条件密度的乘积:

    fYT,YT1,,Y1Y0,Y1,,Yp+1(yT,yT1,,y1y0,y1,,yp+1;θ)(11.1.9)=t=1TfYtYt1,Yt2,,Yp+1(ytyt1,yt2,,yp+1;θ).

    通过将 [11.1.8] 代入 [11.1.9] 并取对数,得到样本对数似然函数:

    L(θ)=t=1TlogfYtYt1,Yt2,,Yp+1(ytyt1,yt2,,yp+1;θ)(11.1.10)=(Tn/2)log(2π)+(T/2)log|Ω1|(1/2)t=1T[(ytΠxt)Ω1(ytΠxt)].

    Maximum Likelihood Estimate of Π

    首先考虑 Π 的 MLE,它包含常数项 c 和自回归系数 Φj。这由下式给出:

    (11.1.11)Π^=[t=1Tytxt][t=1Txtxt]1,

    这可以看作是 yt 在常数和 xt 上的总体线性投影的样本类比。Π^ 的第 j 行是

    (11.1.12)π^j=[t=1Tyjtxt][t=1Txtxt]1,

    这正是将 yjtxt 进行 OLS 回归的估计系数向量。因此,VAR 中第 j 个方程的系数的最大似然估计可以通过将 yjt 对常数项和系统中所有变量的 p 个滞后进行 OLS 回归得到。

    为了验证 [11.1.11],将 [11.1.10] 中最后一项出现的和写成

    (11.1.13)t=1T[(ytΠxt)Ω1(ytΠxt)]=t=1T[(ytΠ^xt+Π^xtΠxt)Ω1(ytΠ^xt+Π^xtΠxt)]=t=1T[ε^t+(Π^Π)xt]Ω1[ε^t+(Π^Π)xt],

    其中 (n×1) 向量 ε^t 的第 j 个元素是将 yjtxt 进行 OLS 回归的观测值 t 的样本残差:

    (11.1.14)ε^tytΠ^xt.

    表达式 [11.1.13] 可以展开为

    (11.1.15)t=1T[(ytΠxt)Ω1(ytΠxt)]=t=1Tε^tΩ1ε^t+2t=1Tε^tΩ1(Π^Π)xt+t=1Txt(Π^Π)Ω1(Π^Π)xt.

    考虑 [11.1.15] 中的中间项。由于这是一个标量,应用"迹"算子不会改变它:

    (11.1.16)t=1Tε^tΩ1(Π^Π)xt=trace[t=1Tε^tΩ1(Π^Π)xt]=trace[t=1TΩ1(Π^Π)xtε^t]=trace[Ω1(Π^Π)t=1Txtε^t].

    但是,OLS 回归的样本残差在构造上与解释变量正交,这意味着对所有 j 都有 t=1Txtε^jt=0,因此 t=1Txtε^t=0。因此,[11.1.16] 恒等于零,[11.1.15] 简化为

    (11.1.17)t=1T[(ytΠxt)Ω1(ytΠxt)]=t=1Tε^tΩ1ε^t+t=1Txt(Π^Π)Ω1(Π^Π)xt.

    由于 Ω 是正定矩阵,Ω1 也是正定的。因此,定义 (n×1) 向量 xt

    xt(Π^Π)xt,

    [11.1.17] 中的最后一项取形式

    t=1Txt(Π^Π)Ω1(Π^Π)xt=t=1T[xt]Ω1xt.

    这对于任何序列 {xt}t=1T(除了对所有 t 都有 xt=0 的情况)都是正的。因此,[11.1.17] 可以取的最小值在 xt=0 时达到,即当 Π=Π^ 时。由于 [11.1.17] 通过 Π=Π^ 最小化,因此 [11.1.10] 通过 Π=Π^ 最大化,这确立了 OLS 回归提供向量自回归系数的最大似然估计的结论,此时有

    L(Ω,Π^)=(Tn/2)log(2π)+(T/2)log|Ω1|(1/2)t=1Tε^tΩ1ε^t.

    Some Useful Results on Matrix Derivatives

    接下来我们计算 Ω 的最大似然估计。这里矩阵微积分的两个结果将很有用。第一个结果涉及矩阵中二次型的导数。设 aij 表示 (n×n) 矩阵 A 的第 i 行、第 j 列元素。假设矩阵 A 是非对称(nonsymmetric)且无限制的(unrestricted)(即当 ikjl 时,aij 的值与 akl 的值无关)。考虑 (n×1) 向量 x 的二次型 xAx。二次型可以显式写成

    (11.1.18)xAx=i=1nj=1nxiaijxj,

    由此

    (11.1.19)xAxaij=xixj.

    将这些 n2 个不同的导数收集到一个 (n×n) 矩阵中,方程 [11.1.19] 可以方便地用矩阵形式表示为

    (11.1.20)xAxA=xx.

    第二个结果涉及矩阵行列式的导数。设 A 是一个非对称无限制的 (n×n) 矩阵,具有正行列式。则

    (11.1.21)log|A|aij=aji,

    其中 aji 表示 A1 的第 j 行、第 i 列元素。用矩阵形式表示为

    (11.1.22)log|A|A=(A)1.

    为了推导 [11.1.22],回忆 A 的行列式公式:

    (11.1.23)|A|=j=1n(1)i+jaij|Aij|,

    其中 Aij 表示通过从 A 中删除第 i 行和第 j 列形成的 (n1)×(n1) 矩阵。[11.1.23] 对 aij 的导数是

    (11.1.24)|A|aij=(1)i+j|Aij|,

    因为参数 aij 不出现在矩阵 Aij 中。因此

    log|A|aij=1|A||A|aij=1|A|(1)i+j|Aij|,

    根据逆矩阵的余子式公式,A1 的第 j 行、第 i 列元素为:

    aji=1|A|(1)i+j|Aij|,

    因此 log|A|aij=aji,这正是方程 [11.1.22] 中所述的结果。

    Note

    下面证明 A1 的第 j 行、第 i 列元素为 aji=1|A|(1)i+j|Aij|

    AA 的伴随矩阵(adjugate matrix),其第 i 行、第 j 列元素定义为第 j 行、第 i 列的代数余子式:

    [A]ij=(1)j+i|Aji|=(1)i+j|Aji|.

    考虑矩阵乘积 AA 的第 k 行、第 i 列元素:

    [AA]ki=j=1nakj[A]ji=j=1nakj(1)i+j|Aij|.

    根据行列式的拉普拉斯展开性质:

    • k=i 时,这是沿第 i 行的展开,因此:

      j=1naij(1)i+j|Aij|=|A|.
    • ki 时,这是用第 k 行的元素乘以第 i 行的代数余子式,结果为零(因为相当于计算一个有两行相同的矩阵的行列式):

      j=1nakj(1)i+j|Aij|=0.

    因此:

    [AA]ki={|A|,如果 k=i0,如果 ki

    这意味着 AA=|A|I,因此:

    A1=1|A|A.

    因此,A1 的第 j 行、第 i 列元素为:

    aji=1|A|[A]ji=1|A|(1)i+j|Aij|.

    The Maximum Likelihood Estimate of Ω

    现在应用这些结果来求 Ω 的 MLE。在 MLE Π^ 时,对数似然 [11.1.10] 为

    (11.1.25)L(Ω,Π^)=(Tn/2)log(2π)+(T/2)log|Ω1|(1/2)t=1Tε^tΩ1ε^t.

    我们的目标是找到一个对称正定矩阵 Ω,使得这个值尽可能大。首先考虑通过选择 Ω 为任何无限制的 (n×n) 矩阵来最大化 [11.1.25] ,为此,我们可以使用公式 [11.1.20] 和 [11.1.22] 对 Ω1 的元素求导:

    (11.1.26)L(Ω,Π^)Ω1=(T/2)log|Ω1|Ω1(1/2)t=1Tε^tΩ1ε^tΩ1=(T/2)Ω(1/2)t=1Tε^tε^t.

    当此导数设为零时,似然函数最大化,即当

    (11.1.27)Ω=(1/T)t=1Tε^tε^t.

    满足 [11.1.27] 的矩阵 Ω 在所有无限制的 (n×n) 矩阵类中最大化似然函数。然而,注意由 [11.1.27] 指定的 Ω 的最优值恰好是对称且正定的。因此,在所有对称正定矩阵类中最大化似然的 Ω 值,也由 [11.1.27] 给出:

    (11.1.28)Ω^=(1/T)t=1Tε^tε^t.

    Ω^ 的第 i 行、第 i 列元素由下式给出:

    (11.1.29)σ^i2=(1/T)t=1Tε^it2,

    这只是 VAR 中第 i 个变量对常数项和所有变量的 p 阶滞后进行回归的平均平方残差。Ω^ 的第 i 行、第 j 列元素是

    (11.1.30)σ^ij=(1/T)t=1Tε^itε^jt,

    这是变量 i 的 OLS 残差和变量 j 的 OLS 残差的平均乘积。

    Likelihood Ratio Tests

    为了进行似然比检验,我们需要计算 [11.1.25] 达到的最大值。因此,考虑

    (11.1.31)L(Ω^,Π^)=(Tn/2)log(2π)+(T/2)log|Ω^1|(1/2)t=1Tε^tΩ^1ε^t,

    其中 Ω^ 由 [11.1.28] 给出。[11.1.31] 中的最后一项是

    (1/2)t=1Tε^tΩ^1ε^t=(1/2)trace[t=1Tε^tΩ^1ε^t]=(1/2)trace[t=1TΩ^1ε^tε^t]=(1/2)trace[Ω^1(TΩ^)]=(1/2)trace(TIn)=Tn/2.

    将此代入 [11.1.31] 得到

    (11.1.32)L(Ω^,Π^)=(Tn/2)log(2π)+(T/2)log|Ω^1|(Tn/2).

    这使得似然比检验特别容易进行。假设我们想检验零假设:一组变量是由具有 p0 个滞后的高斯 VAR 过程生成的,备择假设是具有 p1>p0 个滞后。为了在零假设下估计系统,我们对系统中的每个变量对常数项和所有变量的 p0 个滞后进行 n 个 OLS 回归。设 Ω^0=(1/T)t=1Tε^t(p0)[ε^t(p0)] 是这些回归的残差的方差-协方差矩阵。在 H0 下对数似然的最大值则为

    L0=(Tn/2)log(2π)+(T/2)log|Ω^01|(Tn/2).

    类似地,在备择假设下,系统通过对包括所有变量的 p1 个滞后的 OLS 回归进行估计。在备择假设下最大化的对数似然为

    L1=(Tn/2)log(2π)+(T/2)log|Ω^11|(Tn/2),

    其中 Ω^1 是第二组回归的残差的方差-协方差矩阵。对数似然比的两倍则为

    (11.1.33)2(L1L0)=2{(T/2)log|Ω^11|(T/2)log|Ω^01|}=Tlog(1/|Ω^1|)Tlog(1/|Ω^0|)=Tlog|Ω^1|+Tlog|Ω^0|=T{log|Ω^0|log|Ω^1|}.

    在零假设下,这渐近于 χ2 分布,其中自由度等于 H0 下施加的限制数量。

    自由度计算的详细说明:

    在 VAR(p) 模型中,每个方程都包含所有 n 个变量的滞后项。具体来说:

    因此,H0 相对于 H1 在每个方程中少估计了 (1+np1)(1+np0)=n(p1p0) 个参数。这 n(p1p0) 个参数就是 H0 对每个方程施加的限制数量(即强制这些参数为零)。

    由于 VAR 系统共有 n 个方程,H0 对整个系统施加的总限制数量为:

    n×n(p1p0)=n2(p1p0).

    因此,[11.1.33] 中计算的似然比统计量渐近地具有 n2(p1p0) 个自由度的 χ2 分布。

    例如,假设一个双变量 VAR 用三个和四个滞后进行估计(n=2,p0=3,p1=4)。假设原始样本包含每个变量的 50 个观测值(记为 y3,y2,,y46),并且使用观测值 1 到 46 来估计三滞后和四滞后规范,因此 T=46。设 ε^it(p0) 是将 yit 对常数、y1t 的三个滞后和 y2t 的三个滞后进行 OLS 回归的观测值 t 的样本残差。假设 (1/T)t=1T[ε^1t(p0)]2=2.0(1/T)t=1T[ε^2t(p0)]2=2.5,以及 (1/T)t=1Tε^1t(p0)ε^2t(p0)=1.0。则

    Ω^0=[2.01.01.02.5]

    log|Ω^0|=log4=1.386。假设当在每个回归中添加第四个滞后时,残差协方差矩阵减少到

    Ω^1=[1.80.90.92.2]

    对于此矩阵,log|Ω^1|=1.147。则

    2(L1L0)=46(1.3861.147)=10.99.

    此检验的自由度为 22(43)=4。由于 10.99>9.49χ2(4) 变量的 5% 临界值),零假设被拒绝。动态不能完全由三滞后 VAR 捕获,四滞后似乎更可取。

    Sims (1980, p. 17) 建议对似然比检验进行修改,以考虑小样本偏差。他建议用下式替换 [11.1.33]:

    (11.1.34)(Tk){log|Ω^0|log|Ω^1|},

    其中 k=1+np1 是每个方程估计的参数数量。调整后的检验与 [11.1.33] 具有相同的渐近分布,但在小样本中不太可能拒绝零假设。对于当前示例,此检验统计量将为

    (469)(1.3861.147)=8.84,

    之前的结论将被逆转(H0 将被接受)。

    Asymptotic Distribution of Π^

    即使真实新息是非高斯的,最大似然估计 Π^Ω^ 也会给出总体参数的一致估计。Π^ 的标准误可以基于通常的 OLS 公式,如下面的命题所示。

    Important

    命题 11.1:

    yt=c+Φ1yt1+Φ2yt2++Φpytp+εt,

    其中 εt 独立同分布,均值为 0,方差为 Ω,且对所有 i,j,l,m 都有 E(εitεjtεltεmt)<,并且

    (11.1.35)|InΦ1zΦ2z2Φpzp|=0

    的根位于单位圆外。设 knp+1,并设 xt(1×k) 向量

    xt[1yt1yt2ytp].

    π^T=vec(Π^T) 表示大小为 T 的样本中将 yt 的每个元素对 xt 进行 OLS 回归得到的 (nk×1) 系数向量:

    π^T=[π^1,Tπ^2,Tπ^n,T]

    其中

    π^i,T=[t=1Txtxt]1[t=1Txtyit];

    并设 π 表示相应的总体系数 (nk×1) 向量。最后,设

    Ω^T=(1/T)t=1Tε^tε^t

    其中

    ε^t=[ε^1tε^2tε^nt]
    ε^it=yitxtπ^i,T.

    (a) (1/T)t=1TxtxtpQ,其中 Q=E(xtxt)

    (b) π^Tpπ

    (c) Ω^TpΩ

    (d) T(π^Tπ)LN(0,(ΩQ1)),其中 表示 Kronecker 积。

    证明:

    证明 (a): [11.1.35] 中根的条件确保了 MA() 表示是绝对可求和的。因此,由命题 10.2(b) 和 10.5(a),yt 对一阶矩是遍历的,由命题 10.2(d),对二阶矩也是遍历的。这就建立了结果 11.1(a)。

    证明 (b) 和 (c): 结果 (b) 和 (c) 的证明与具有随机回归变量的单个 OLS 回归的证明几乎相同(结果 [8.2.5] 和 [8.2.12])。

    证明 (d): 注意到

    T(π^i,Tπi)=[(1/T)t=1Txtxt]1[(1/T)t=1Txtεit],

    因此

    (11.A.1)T(π^Tπ)=[QT1(1/T)t=1Txtε1tQT1(1/T)t=1Txtε2tQT1(1/T)t=1Txtεnt],

    其中

    QT[(1/T)t=1Txtxt].

    定义 ξt 为以下 (nk×1) 向量:

    ξt[xtε1txtε2txtεnt].

    注意到 ξt 是具有有限四阶矩的鞅差分序列,其方差为

    E(ξtξt)=[E(xtxt)E(ε1t2)E(xtxt)E(ε1tε2t)E(xtxt)E(ε1tεnt)E(xtxt)E(ε2tε1t)E(xtxt)E(ε2t2)E(xtxt)E(ε2tεnt)E(xtxt)E(εntε1t)E(xtxt)E(εntε2t)E(xtxt)E(εnt2)]=[E(ε1t2)E(ε1tε2t)E(ε1tεnt)E(ε2tε1t)E(ε2t2)E(ε2tεnt)E(εntε1t)E(εntε2t)E(εnt2)]E(xtxt)=ΩQ.

    可以进一步证明

    (11.A.2)(1/T)t=1TξtξtpΩQ.

    由命题 7.9 可得

    (11.A.3)(1/T)t=1TξtLN(0,(ΩQ)).

    现在,表达式 [11.A.1] 可以写成

    T(π^Tπ)=[QT1000QT1000QT1][(1/T)t=1Txtε1t(1/T)t=1Txtε2t(1/T)t=1Txtεnt]=(InQT1)(1/T)t=1Tξt.

    但结果 (a) 意味着 QT1pQ1。因此,

    (11.A.4)T(π^Tπ)L(InQ1)(1/T)t=1Tξt.

    但由 [11.A.3],这具有均值为 0、方差为

    (InQ1)(ΩQ)(InQ1)=(InΩIn)(Q1QQ1)=ΩQ1,

    的高斯分布,如所声称的。

    证毕。


    如果我们只对 π^i,T(VAR 中第 i 个回归的系数)感兴趣,结果 (d) 意味着

    (11.1.36)T(π^i,Tπi)LN(0,σi2Q1),

    其中 σi2=E(εit2) 是 VAR 中第 i 个方程的新息的方差。但是 σi2σ^i2=(1/T)t=1Tε^it2(该方程 OLS 估计的平均平方残差)一致估计。类似地,Q1[(1/T)t=1Txtxt]1 一致估计。因此,[11.1.36] 使我们能够将 π^i 近似地视为

    (11.1.37)π^iN(πi,σ^i2[t=1Txtxt]1).

    但这是系数方差的标准 OLS 公式,其中标准公式中的 si2=[1/(Tk)]t=1Tε^it2 在 [11.1.37] 中被最大似然估计 σ^i2 替换。显然,si2σ^i2 是渐近等价的,尽管根据 Sims 在 [11.1.34] 中的论证,从 OLS 公式得到的更大(因此更保守)的标准误可能更可取。因此,命题 11.1 确立了应用于 VAR 中任何单个方程的系数的标准 OLS tF 统计量是渐近有效的,可以按通常的方式评估。

    涉及 VAR 不同方程的系数的更一般形式的假设 Rπ=r 可以使用 OLS χ2 检验的 Wald 形式的推广(表达式 [8.2.23])进行检验。命题 11.1 的结果 (d) 确立了

    T(Rπ^Tr)LN(0,R(ΩQ1)R).

    根据结果 (a) 和 (c),渐近分布可以等价地描述为

    T(Rπ^Tr)pN(0,R(Ω^TQT1)R),

    其中 Ω^T=(1/T)t=1Tε^tε^tQT=(1/T)t=1Txtxt。因此,以下统计量具有渐近 χ2 分布:

    (11.1.38)χ2(m)=T(Rπ^Tr)[R(Ω^TQT1)R]1(Rπ^Tr)=(Rπ^Tr){R[Ω^T(t=1Txtxt)1]R}1(Rπ^Tr).

    此统计量的自由度由 R 的行数给出,或所检验的限制数量。

    例如,假设我们想检验 VAR 中第一个方程的常数项 (c1) 等于第二个方程的常数项 (c2) 的假设。则 R 是一个 (1×nk) 向量,第一个位置为 1,第 (k+1) 个位置为 -1,其他位置为 0:

    R=[10001000].

    为了应用结果 [11.1.38],将 R 写成 Kronecker 积形式会很方便:

    (11.1.39)R=RnRk,

    其中 Rn 选择涉及的方程,Rk 选择系数。对于此示例,

    Rn=[11000]Rk=[10000].

    然后我们计算

    R[Ω^(t=1Txtxt)1]R=(RnRk)[Ω^(t=1Txtxt)1](RnRk)=(RnΩ^Rn)[Rk(t=1Txtxt)1Rk]=(σ^122σ^12+σ^22)ξ11,

    其中 σ^12ε^1tε^2t 之间的协方差,ξ11(t=1Txtxt)1(1,1) 元素。由于 ξ11 是标量,上述 Kronecker 积是简单乘法。检验统计量 [11.1.38] 则为

    χ2(1)=(c^1c^2)2(σ^122σ^12+σ^22)ξ11.

    Asymptotic Distribution of Ω^

    在考虑方差和协方差估计的渐近分布时,注意由于 Ω 是对称的,其某些元素是冗余的。回忆"vec"算子通过堆叠列将 (n×n) 矩阵转换为 (n2×1) 向量。例如,

    (11.1.40)vec[σ11σ12σ13σ21σ22σ23σ31σ32σ33]=[σ11σ21σ31σ12σ22σ32σ13σ23σ33].

    类似的"vech"算子通过垂直堆叠主对角线上或下方的元素,将 (n×n) 矩阵转换为 [n(n+1)/2×1] 向量。例如,

    (11.1.41)vech[σ11σ12σ13σ21σ22σ23σ31σ32σ33]=[σ11σ21σ31σ22σ32σ33].

    Important

    命题 11.2:

    yt=c+Φ1yt1+Φ2yt2++Φpytp+εt,

    其中 εt i.i.d. N(0,Ω),并且

    |InΦ1zΦ2z2Φpzp|=0

    的根位于单位圆外。设 π^T,Ω^TQ 如命题 11.1 中定义。则

    [T[π^Tπ]T[vech(Ω^T)vech(Ω)]]LN([00],[(ΩQ1)00Σ22]).

    σij 表示 Ω 的第 i 行、第 j 列元素;例如,σ11ε1t 的方差。则 Σ22 中对应于 σ^ijσ^lm 之间协方差的元素由 (σilσjm+σimσjl) 给出,对所有 i,j,l,m=1,2,,n,包括 i=j=l=m

    证明:

    定义 Ω^T(1/T)t=1Tεtεt 为基于真实残差的 Ω 的估计。我们首先注意到 Ω^TΩ^T 具有相同的渐近分布。为了看到这一点,注意到

    Ω^T=(1/T)t=1T(ytΠxt)(ytΠxt)=(1/T)t=1T[ytΠ^Txt+(Π^TΠ)xt][ytΠ^Txt+(Π^TΠ)xt](11.A.5)=(1/T)t=1T(ytΠ^Txt)(ytΠ^Txt)+(Π^TΠ)(1/T)t=1Txtxt(Π^TΠ)=Ω^T+(Π^TΠ)(1/T)t=1Txtxt(Π^TΠ),

    其中交叉项在第三个等式中被删除,因为 OLS 正交性条件 (1/T)t=1T(ytΠ^Txt)xt=0。方程 [11.A.5] 意味着

    T(Ω^TΩ^T)=(Π^TΠ)(1/T)t=1Txtxt[T(Π^TΠ)].

    但命题 11.1 确立了 (Π^TΠ)p0(1/T)t=1TxtxtpQ,且 T(Π^TΠ) 依分布收敛。因此,由命题 7.3,T(Ω^TΩ^T)p0,这意味着 T(Ω^TΩ)pT(Ω^TΩ)

    回忆 [11.A.4],

    (11.A.6)[T[π^Tπ]T[vech(Ω^T)vech(Ω)]]p[(InQ1)(1/T)t=1Tξt(1/T)t=1Tλt],

    其中 ξt=εtxt,且

    λtvech[ε1t2σ11ε1tε2tσ12ε1tεntσ1nε2tε1tσ21ε2t2σ22ε2tεntσ2nεntε1tσn1εntε2tσn2εnt2σnn].

    可以证明 (ξt,λt) 是满足命题 7.9 条件的鞅差分序列,由此

    (11.A.7)[(1/T)t=1Tξt(1/T)t=1Tλt]LN([00],[Σ11Σ12Σ21Σ22]),

    其中

    [Σ11Σ12Σ21Σ22]=[E(ξtξt)E(ξtλt)E(λtξt)E(λtλt)].

    回忆命题 11.1 的证明,

    Σ11=E(ξtξt)=ΩQ.

    Σ12 的典型元素形式为

    E(xtεlt)(εitεjtσij)=E(xt)E(εltεitεjt)σijE(xt)E(εlt),

    这对所有 i,j,l 都等于零。因此,[11.A.7] 变为

    [(1/T)t=1Tξt(1/T)t=1Tλt]LN([00],[ΩQ00Σ22]),

    因此,由 [11.A.6],

    [T[π^Tπ]T[vech(Ω^T)vech(Ω)]]LN([00],[ΩQ100Σ22]).

    因此,如果我们能证明 E(λtλt) 由命题中描述的矩阵 Σ22 给出,则命题 11.2 将被确立;也就是说,我们必须证明

    (11.A.8)E[(εitεjtσij)(εltεmtσlm)]=σilσjm+σimσjl

    对所有 i,j,l,m 成立。

    为了推导 [11.A.8],设 Ω=PP 表示 Ω 的 Cholesky 分解,并定义

    (11.A.9)vtP1εt.

    E(vtvt)=P1Ω(P1)=In。因此,vit 是均值为零、方差为 1 的高斯变量,四阶矩由 E(vit4)=3 给出。此外,vitvjtij 独立。

    方程 [11.A.9] 意味着

    (11.A.10)εt=Pvt.

    pij 表示 P 的第 i 行、第 j 列元素。则 [11.A.10] 的第 i 行表明

    (11.A.11)εit=pi1v1t+pi2v2t++pinvnt

    (11.A.12)εitεjt=(pi1v1t+pi2v2t++pinvnt)×(pj1v1t+pj2v2t++pjnvnt).

    εt 的二阶矩可以通过对 [11.A.12] 取期望得到,回忆 E(vitvjt)=1 如果 i=j,否则为零:

    (11.A.13)E(εitεjt)=pi1pj1+pi2pj2++pinpjn.

    类似地,四阶矩可以从 [11.A.11] 和 [11.A.12] 的展开得到。经过详细计算(见源文件),可以证明

    (11.A.14)E(εitεjtεltεmt)=σilσjm+σilσjm+σimσjl,

    其中最后一行由 [11.A.13] 得出。则

    E[(εitεjtσij)(εltεmtσlm)]=E(εitεjtεltεmt)σijσlm=σilσjm+σimσjl,

    如 [11.A.8] 中声称的。

    证毕。


    例如,对于 n=2,命题 11.2 意味着

    (11.1.42)T[σ^11,Tσ11σ^12,Tσ12σ^22,Tσ22]LN([000],[2σ1122σ11σ122σ1222σ11σ12σ11σ22+σ1222σ12σ222σ1222σ12σ222σ222]).

    因此,检验 ε1tε2t 之间没有协方差的零假设的 Wald 检验由下式给出:

    Tσ^12(σ^11σ^22+σ^122)1/2N(0,1).

    检验 ε1tε2t 具有相同方差的零假设的 Wald 检验由下式给出:

    T(σ^11σ^22)22σ^1124σ^122+2σ^222χ2(1),

    其中 σ^112 表示第一个方程的创新项的估计方差的平方。

    命题 11.2 中的矩阵 Σ22 可以使用复制矩阵(duplication matrix)更紧凑地表示。注意由于 Ω 是对称的,[11.1.40] 中 vec(Ω)n2 个元素是 [11.1.41] 中 vech(Ω)n(n+1)/2 个元素的简单重复。存在一个唯一的 [n2×n(n+1)/2] 矩阵 Dn,它将 vech(Ω) 转换为 vec(Ω),即满足

    (11.1.43)Dnvech(Ω)=vec(Ω).

    的唯一矩阵。例如,对于 n=2,方程 [11.1.43] 是

    (11.1.44)[100010010001][σ11σ21σ22]=[σ11σ21σ12σ22].

    进一步,定义 Dn+ 为以下的 [n(n+1)/2×n2] 矩阵:

    (11.1.45)Dn+(DnDn)1Dn.

    注意 Dn+Dn=In(n+1)/2。因此,将 [11.1.43] 的两边左乘 Dn+ 表明,对于对称的 ΩDn+ 是将 vec(Ω) 转换为 vech(Ω) 的矩阵:

    (11.1.46)vech(Ω)=Dn+vec(Ω).

    例如,对于 n=2,方程 [11.1.46] 是

    (11.1.47)[σ11σ21σ22]=[10000121200001][σ11σ21σ12σ22].

    事实证明,命题 11.2 中描述的矩阵 Σ22 可以写成

    (11.1.48)Σ22=2Dn+(ΩΩ)(Dn+).

    例如,对于 n=2,表达式 [11.1.48] 变为

    2D2+(ΩΩ)(D2+)=2[10000121200001][σ11σ11σ11σ12σ12σ11σ12σ12σ11σ21σ11σ22σ12σ21σ12σ22σ21σ11σ21σ12σ22σ11σ22σ12σ21σ21σ21σ22σ22σ21σ22σ22][10001200120001]=[2σ1122σ11σ122σ1222σ11σ12σ11σ22+σ1222σ12σ222σ1222σ12σ222σ222],

    这就是 [11.1.42]。

    11.2 Bivariate Granger Causality Tests

    向量自回归可以解决的关键问题之一是某些变量对预测其他变量有多大用处。

    Definition of Bivariate Granger Causality

    本节研究的问题是标量 y 是否可以帮助预测另一个标量 x。如果不能,我们说 y 不是 x 的Granger原因。更正式地,如果对所有 s>0,基于 (xt,xt1,)xt+s 预测的均方误差与同时使用 (xt,xt1,)(yt,yt1,)xt+s 预测的 MSE 相同,则 y 不是 x 的Granger原因。如果限制使用线性函数,则当

    (11.2.1)MSE[E^(xt+sxt,xt1,)]=MSE[E^(xt+sxt,xt1,,yt,yt1,)]

    时,y 不是 x 的Granger原因。

    等价地,如果 [11.2.1] 成立,我们说 x 在时间序列意义下相对于 y 是外生的。第三种表达相同含义的说法是 y 关于未来 x 不是包含线性信息的。

    Alternative Implications of Granger Causality

    在描述 xy 的双变量 VAR 中,如果系数矩阵 Φj 对所有 j 都是下三角的,则 y 不是 x 的Granger原因:

    (11.2.2)[xtyt]=[c1c2]+[ϕ11(1)0ϕ21(1)ϕ22(1)][xt1yt1]+[ϕ11(2)0ϕ21(2)ϕ22(2)][xt2yt2]++[ϕ11(p)0ϕ21(p)ϕ22(p)][xtpytp]+[ε1tε2t].

    从该系统的第一行,x 的最优一期预测仅依赖于其自身的滞后值,而不依赖于滞后的 y

    (11.2.3)E^(xt+1xt,xt1,,yt,yt1,)=c1+ϕ11(1)xt+ϕ11(2)xt1++ϕ11(p)xtp+1.

    此外,[11.2.2] 中 xt+2 的值由下式给出:

    xt+2=c1+ϕ11(1)xt+1+ϕ11(2)xt++ϕ11(p)xtp+2+ε1,t+2.

    回忆 [11.2.3] 和迭代投影定律,显然基于 (xt,xt1,,yt,yt1,) 对该量的日期 t 预测也仅依赖于 (xt,xt1,,xtp+1)。通过归纳,s 期预测也是如此。因此,对于双变量 VAR,如果 Φj 对所有 j 都是下三角的,则 y 不是 x 的Granger原因。

    回忆方程 [10.1.19]:

    Ψs=Φ1Ψs1+Φ2Ψs2++ΦpΨspfor s=1,2,,

    其中 Ψ0 是单位矩阵,且对 s<0Ψs=0。此表达式意味着如果 Φj 对所有 j 都是下三角的,则基本表示的移动平均矩阵 Ψs 对所有 s 都是下三角的。因此,如果 y 不是 x 的Granger原因,则 MA() 表示可以写成

    (11.2.4)[xtyt]=[μ1μ2]+[ψ11(L)0ψ21(L)ψ22(L)][ε1tε2t],

    其中

    ψij(L)=ψij(0)+ψij(1)L+ψij(2)L2+ψij(3)L3+

    ψ11(0)=ψ22(0)=1ψ21(0)=0

    Granger 因果关系的另一个含义由 Sims (1972) 强调。

    Important

    命题 11.3: 考虑 yt 对过去、现在和未来 x 的线性投影

    (11.2.5)yt=c+j=0bjxtj+j=1djxt+j+ηt,

    其中 bjdj 定义为总体投影系数,即满足

    E(ηtxτ)=0for all t and τ

    的值。

    y 不是 x 的Granger原因当且仅当对所有 j=1,2, 都有 dj=0

    证明:

    首先假设 y 不是 x 的Granger原因,因此过程可以写成 [11.2.4] 的形式。定义 v2tε2tε1t 上的投影残差,b0 定义为投影系数:

    v2t=ε2tb0ε1t.

    因此,v2tε1t 不相关,且回忆 εt 是白噪声,v2t 也必须与所有 tτε1τ 不相关。从 [11.2.4] 的第一行,这意味着 v2t 与所有 tτxτ 不相关。使用 v2t 的这个定义,[11.2.4] 的第二行可以写成

    (11.A.15)yt=μ2+ψ21(L)ε1t+ψ22(L)[v2t+b0ε1t].

    此外,从 [11.2.4] 的第一行,

    (11.A.16)ε1t=[ψ11(L)]1(xtμ1).

    将 [11.A.16] 代入 [11.A.15] 得到

    (11.A.17)yt=c+b(L)xt+ηt,

    其中我们定义了 b(L){[ψ21(L)+b0ψ22(L)][ψ11(L)]1}cμ2b(1)μ1,且 ηtψ22(L)v2t。但 ηtv2t 构造,与所有 τxτ 不相关。此外,只有 x 的当前和滞后值,如算子 b(L) 所总结的,出现在方程 [11.A.17] 中。因此,我们已经证明如果 [11.2.4] 成立,则 [11.2.5] 中对所有 j 都有 dj=0

    为了证明逆命题,假设 [11.2.5] 中对所有 j 都有 dj=0。设

    (11.A.18)xt=μ1+ψ11(L)ε1t

    表示 xt 的单变量 Wold 表示;因此,ψ11(0)=1。我们将使用与 [11.2.4] 形式一致的记号,将 [11.A.18] 视为根据 x 的单变量 Wold 表示对 ψ11(L) 的新定义。[11.2.5] 中的误差项也存在单变量 Wold 表示,记为

    (11.A.19)ηt=ψ22(L)v2t,

    其中 ψ22(0)=1。注意到 [11.2.5] 中定义的 ηt 与所有 tsxs 不相关。因此,v2t 与所有 tτxτε1τ 不相关。

    将 [11.A.18] 和 [11.A.19] 代入 [11.2.5],

    (11.A.20)yt=c+b(1)μ1+b(L)ψ11(L)ε1t+ψ22(L)v2t.

    定义

    (11.A.21)ε2tv2t+b0ε1t

    其中 b0b(L)L0 系数,且

    (11.A.22)μ2c+b(1)μ1.

    注意到 (ε1t,ε2t) 是向量白噪声。将 [11.A.21] 和 [11.A.22] 代入 [11.A.20] 得到

    (11.A.23)yt=μ2+[b(L)ψ11(L)b0ψ22(L)]ε1t+ψ22(L)ε2t.

    最后,定义

    ψ21(L)[b(L)ψ11(L)b0ψ22(L)],

    注意到 ψ21(0)=0。然后,将其代入 [11.A.23] 得到

    yt=μ2+ψ21(L)ε1t+ψ22(L)ε2t.

    这与 [11.A.18] 一起完成了 [11.2.5] 意味着 [11.2.4] 的证明。

    证毕。


    Econometric Tests for Granger Causality

    检验特定观测序列 y 是否是 x 的Granger原因的计量经济学检验可以基于三个含义 [11.2.2]、[11.2.4] 或 [11.2.5] 中的任何一个。最简单且可能最好的方法使用自回归规范 [11.2.2]。为了实施此检验,我们假设特定的自回归滞后长度 p 并估计

    (11.2.6)xt=c1+α1xt1+α2xt2++αpxtp+β1yt1+β2yt2++βpytp+ut

    通过 OLS,然后我们对零假设进行 F 检验:

    (11.2.7)H0:β1=β2==βp=0.

    回忆命题 8.2,实施此检验的一种方法是计算 [11.2.6] 的残差平方和:

    RSS1=t=1Tu^t2

    并将其与 xt 的单变量自回归的残差平方和进行比较:

    RSS0=t=1Te^t2,

    其中

    (11.2.8)xt=c0+γ1xt1+γ2xt2++γpxtp+et

    也通过 OLS 估计。如果

    (11.2.9)S1(RSS0RSS1)/pRSS1/(T2p1)

    大于 F(p,T2p1) 分布的 5% 临界值,则我们拒绝 y 不是 x 的Granger原因的零假设;也就是说,如果 S1 足够大,我们得出结论 y 确实是 x 的Granger原因。

    检验统计量 [11.2.9] 对于具有固定回归变量和高斯扰动的回归将具有精确的 F 分布。然而,对于像 Granger 因果关系回归中那样具有滞后因变量的情况,检验仅在渐近意义下有效。渐近等价的检验由下式给出:

    (11.2.10)S2T(RSS0RSS1)RSS1.

    如果 S2 大于 χ2(p) 变量的 5% 临界值,我们将拒绝 y 不是 x 的Granger原因的零假设。

    另一种方法是基于 Sims 形式 [11.2.5] 而不是 Granger 形式 [11.2.2] 进行检验。Sims 形式的一个问题是误差项 ηt 通常是自相关的。因此,对 [11.2.5] 中所有 j 都有 dj=0 的假设的标准 F 检验不会给出正确答案。一种选择是使用第 10.5 节中描述的自相关一致标准误进行 OLS 估计。第二种选择是使用广义最小二乘变换。第三种选择由 Geweke、Meese 和 Dent (1983) 提出,如下所示。假设 [11.2.5] 中的误差项 ηt 具有 Wold 表示 ηt=ψ22(L)v2t。将 [11.2.5] 的两边乘以 h(L)[ψ22(L)]1 得到

    (11.2.11)yt=c2j=1hjytj+j=0bjxtj+j=1djxt+j+v2t.

    [11.2.11] 中的误差项是白噪声,且与任何解释变量都不相关。此外,对所有 j 都有 dj=0 当且仅当对所有 j 都有 dj=0。因此,通过在某个有限值处截断 [11.2.11] 中的无限和,我们可以通过对 d1=d2==dp=0F 检验来检验 y 不是 x 的Granger原因的零假设。

    Interpreting Granger-Causality Tests

    "Granger 因果关系"与"因果关系"的标准含义有何关系?我们用几个例子来探讨这个问题。

    例子 11.1:Granger 因果关系检验与前瞻性行为

    第一个例子使用第 2 章中描述的股票价格模型的修改。如果投资者在日期 t 以价格 Pt 购买一股股票,那么在 t+1 时投资者将获得 Dt+1 的股息并能够以 Pt+1 的价格出售股票。股票的事后收益率(记为 rt+1)定义为

    (11.2.12)(1+rt+1)PtPt+1+Dt+1.

    股票价格的简单模型认为股票的预期收益率在所有日期都是常数 r

    (11.2.13)(1+r)Pt=Et[Pt+1+Dt+1].

    这里 Et 表示以时间 t 股票市场参与者可获得的所有信息为条件的期望。[11.2.13] 背后的逻辑是,如果投资者在时间 t 有信息使他们预期股票的回报高于正常水平,他们会在日期 t 想要购买更多股票。这种购买将推动 Pt 上升,直到 [11.2.13] 得到满足。这种观点有时被称为有效市场假说。

    正如Chapter 2 中关于方程 [2.5.15] 的讨论所指出的,方程 [11.2.13] 连同有界性条件意味着

    (11.2.14)Pt=Etj=1[11+r]jDt+j.

    因此,根据理论,股票价格包含了市场对未来股息现值的最好预测。如果此预测基于的信息不仅仅是过去的股息,那么当投资者试图预测股息的变动时,股票价格将是股息的Granger原因。

    为了简单说明这一点,假设

    (11.2.15)Dt=d+ut+δut1+vt,

    其中 utvt 是独立的高斯白噪声序列,d 是平均股息。假设时间 t 的投资者知道 {ut,ut1,}{vt,vt1,} 的值。基于此信息的 Dt+j 的预测由下式给出:

    (11.2.16)Et(Dt+j)={d+δutfor j=1dfor j=2,3,.

    将 [11.2.16] 代入 [11.2.14],股票价格将由下式给出:

    (11.2.17)Pt=d/r+δut/(1+r).

    因此,对于此示例,股票价格是白噪声,不能基于滞后的股票价格或股息进行预测。没有序列应该是股票价格的Granger原因。

    另一方面,注意从 [11.2.17] 可以看出,ut1 的值可以从滞后的股票价格中揭示:

    δut1=(1+r)Pt1(1+r)d/r.

    回忆第 4.7 节,ut1 包含关于 Dt 的额外信息,超出了 {Dt1,Dt2,} 中包含的信息。因此,股票价格是股息的Granger原因,尽管股息不是股票价格的Granger原因。双变量 VAR 取形式

    [PtDt]=[d/rd/r]+[001+r0][Pt1Dt1]+[δut/(1+r)ut+vt].

    因此,在此模型中,Granger 因果关系与真正的因果关系方向相反。股息不是价格的Granger原因,尽管投资者对股息的感知是股票价格的唯一决定因素。另一方面,价格确实是股息的Granger原因,尽管市场对股票的评估实际上对股息过程没有影响。

    一般来说,反映前瞻性行为的时间序列,如股票价格和利率,通常被发现是许多关键经济时间序列的优秀预测因子。这显然并不意味着这些序列导致 GNP 或通货膨胀上升或下降。相反,这些序列的值反映了市场关于 GNP 或通货膨胀可能走向的最佳信息。对于此类序列的 Granger 因果关系检验可能有助于评估有效市场观点或调查市场是否关注或能够预测 GNP 或通货膨胀,但不应用于推断因果关系方向。

    例子 11.2:检验严格计量经济学外生性

    自第二次世界大战以来,美国除一次外的所有经济衰退都先于原油价格的急剧上涨。这是否意味着石油冲击是衰退的原因?

    一种可能性是相关性是偶然的——石油冲击和衰退出现在相似时间只是偶然,尽管生成两个序列的实际过程是无关的。我们可以通过检验石油价格不是 GNP 的Granger原因的零假设来研究这种可能性。数据拒绝了这一假设——石油价格有助于预测 GNP 的值,它们对预测的贡献在统计上是显著的。这反对将相关性简单地视为巧合。

    为了对这种相关性进行因果解释,必须确定石油价格上涨不是反映其他宏观经济影响,这些影响是衰退的真正原因。主要的石油价格上涨与明确的历史事件相关,如 1956-57 年的苏伊士危机、1973-74 年的阿以战争、1978-79 年的伊朗革命、1980 年两伊战争的开始以及 1990 年伊拉克入侵科威特。人们可以认为这些事件完全由美国经济之外的力量引起,基本上是难以预测的。如果这种观点是正确的,那么石油价格和 GNP 之间的历史相关性可以给出因果解释。这种观点具有可反驳的含义,即没有序列应该是石油价格的Granger原因。经验上,人们确实发现很少有宏观经济序列有助于预测这些石油冲击的时间。

    这两个例子的主题是 Granger 因果关系检验可以表述为关于特定序列可预测性陈述的假设的有用工具。另一方面,人们可能对它们作为建立两个任意序列之间因果关系方向的一般诊断工具的效用持怀疑态度。因此,最好将这些描述为检验 y 是否有助于预测 x,而不是检验 y 是否导致 x。检验可能对后一个问题有含义,但仅与其他假设结合使用。

    到目前为止,我们一直在讨论两个变量 xy,与任何其他变量隔离。假设还有其他变量与 xy 相互作用。这如何影响 xy 之间的预测关系?

    例子 11.3:遗漏信息的作用

    考虑以下三变量系统:

    [y1ty2ty3t]=[1+δLL00100L1][ε1tε2tε3t]

    其中

    E(εtεs)={[σ12000σ22000σ32]for t=s0otherwise.

    因此,y3 不能提供对 y1y2 的预测改进,超出使用滞后的 y1y2 所达到的水平。

    现在让我们检查 y1y3 之间的双变量 Granger 因果关系关系。首先,考虑 y1 的过程:

    y1t=ε1t+δε1,t1+ε2,t1.

    注意 y1MA(1) 过程 (ε1t+δε1,t1) 和无关的白噪声过程 (ε2,t1) 的和。我们从方程 [4.7.15] 知道 y1 的单变量表示是 MA(1) 过程:

    y1t=ut+θut1.

    从 [4.7.16],单变量预测误差 ut 可以表示为

    ut=(ε1tθε1,t1+θ2ε1,t2θ3ε1,t3+)+δ(ε1,t1θε1,t2+θ2ε1,t3θ3ε1,t4+)+(ε2,t1θε2,t2+θ2ε2,t3θ3ε2,t4+).

    单变量预测误差 ut 当然与其自身的滞后值不相关。然而,注意它与 y3,t1 相关:

    E(ut)(y3,t1)=E(ut)(ε3,t1+ε2,t2)=θσ22.

    因此,滞后的 y3 可以帮助改进基于仅滞后的 y1 值的 y1 预测,这意味着在双变量系统中 y3y1 的Granger原因。原因是滞后的 y3 与遗漏变量 y2 相关,y2 也有助于预测 y1

    11.3 Maximum Likelihood Estimation of Restricted Vector Autoregressions

    第 11.1 节讨论了受限向量自回归的最大似然估计和假设检验。在这些系统中,VAR 的每个方程都有相同的解释变量,即常数项和系统中所有变量的滞后。我们展示了如何计算线性约束的 Wald 检验,但没有讨论在约束条件下估计系统。本节考察受限 VAR 的估计。

    Granger Causality in a Multivariate Context

    作为我们可能感兴趣的受限系统的示例,考虑上一节探讨问题的向量推广。假设 VAR 的变量分为两组,由 (n1×1) 向量 y1t(n2×1) 向量 y2t 表示。VAR 可以写成

    (11.3.1)y1t=c1+A1x1t+A2x2t+ε1t(11.3.2)y2t=c2+B1x1t+B2x2t+ε2t.

    这里 x1t 是包含 y1tp 个滞后的 (n1p×1) 向量,(n2p×1) 向量 x2t 包含 y2tp 个滞后:

    x1t[y1,t1y1,t2y1,tp],x2t[y2,t1y2,t2y2,tp].

    (n1×1)(n2×1) 向量 c1c2 包含 VAR 的常数项,而矩阵 A1,A2,B1B2 包含自回归系数。

    如果 y2 中的元素对改进基于仅 y1 的所有元素的滞后值的 y1 中任何变量的预测没有帮助,则称由 y1 表示的变量组在时间序列意义下相对于 y2 中的变量是块外生的(block-exogenous)。在 [11.3.1] 和 [11.3.2] 的系统中,当 A2=0 时,y1 是块外生的。为了讨论在此约束下估计系统,我们首先注意可以计算和最大化无限制似然的另一种形式。

    An Alternative Expression for the Likelihood Function

    第 11.1 节使用预测误差分解计算 VAR 的对数似然函数:

    (11.3.3)L(θ)=t=1TlogfYtXt(ytxt;θ),

    其中 yt=(y1t,y2t)xt=(yt1,yt2,,ytp),且

    (11.3.4)logfYtXt(ytxt;θ)=n1+n22log(2π)12log|Ω11Ω12Ω21Ω22|12[(y1tc1A1x1tA2x2t)(y2tc2B1x1tB2x2t)]×[Ω11Ω12Ω21Ω22]1[y1tc1A1x1tA2x2ty2tc2B1x1tB2x2t].

    或者,[11.3.4] 中的联合密度可以写成 y1t 的边际密度与给定 y1ty2t 的条件密度的乘积:

    (11.3.5)fYtXt(ytxt;θ)=fY1tXt(y1txt;θ)fY2tY1t,Xt(y2ty1t,xt;θ).

    xt 为条件,y1 的密度为

    (11.3.6)fY1tXt(y1txt;θ)=(2π)n1/2|Ω11|1/2×exp[12(y1tc1A1x1tA2x2t)Ω111(y1tc1A1x1tA2x2t)],

    而给定 y1txty2 的条件密度也是高斯的:

    (11.3.7)fY2tY1t,Xt(y2ty1t,xt;θ)=(2π)n2/2|H|1/2×exp[12(y2tm2t)H1(y2tm2t)].

    此条件分布的参数可以使用第 4.6 节的结果计算。条件方差由方程 [4.6.6] 给出:

    H=Ω22Ω21Ω111Ω12;

    而条件均值 (m2t) 可以从 [4.6.5] 计算:

    (11.3.8)m2t=E(y2txt)+Ω21Ω111[y1tE(y1txt)].

    注意从 [11.3.1] 有

    E(y1txt)=c1+A1x1t+A2x2t,

    而从 [11.3.2] 有

    E(y2txt)=c2+B1x1t+B2x2t.

    将这些表达式代入 [11.3.8]:

    (11.3.9)m2t=(c2+B1x1t+B2x2t)+Ω21Ω111[y1t(c1+A1x1t+A2x2t)]=d+D0y1t+D1x1t+D2x2t,

    其中

    (11.3.10)d=c2Ω21Ω111c1(11.3.11)D0=Ω21Ω111(11.3.12)D1=B1Ω21Ω111A1(11.3.13)D2=B2Ω21Ω111A2.

    因此,[11.3.4] 中联合密度的对数可以等价地计算为边际密度 [11.3.6] 和对数条件密度 [11.3.7] 的对数之和:

    (11.3.14)logfYtXt(ytxt;θ)=1t+2t,

    其中

    (11.3.15)1t=(n1/2)log(2π)12log|Ω11|12[(y1tc1A1x1tA2x2t)Ω111(y1tc1A1x1tA2x2t)](11.3.16)2t=(n2/2)log(2π)12log|H|12[(y2tdD0y1tD1x1tD2x2t)H1(y2tdD0y1tD1x1tD2x2t)].

    样本对数似然则可以表示为

    (11.3.17)L(θ)=t=1T1t+t=1T2t.

    方程 [11.3.4] 和 [11.3.14] 是同一量的两种不同表达式。只要第二种表示中的参数与第一种中的参数如 [11.3.10] 到 [11.3.13] 中那样相关,任一计算都会产生相同的似然值。如果 [11.3.3] 通过选择 (c1,A1,A2,c2,B1,B2,Ω11,Ω12,Ω22) 最大化,则通过选择 (c1,A1,A2,d,D0,D1,D2,Ω11,H) 最大化 [11.3.17] 将达到相同的似然值。

    第二种最大化与第一种一样容易实现。由于参数 (c1,A1,A2) 在 [11.3.17] 中仅通过 t=1T1t 出现,这些参数的 MLE 可以通过将 y1 的元素对常数和 y1y2 的滞后值进行 OLS 回归找到,即通过 [11.3.1] 的 OLS 估计。Ω11 的 MLE 是这些回归的残差的样本方差-协方差矩阵,Ω^11=(1/T)t=1Tε^1tε^1t。类似地,参数 (d,D0,D1,D2) 在 [11.3.17] 中仅通过 t=1T2t 出现,因此它们的 MLE 通过将 y2t 的元素对常数、y1 的当前和滞后值以及 y2 的滞后值进行 OLS 回归获得:

    (11.3.18)y2t=d+D0y1t+D1x1t+D2x2t+v2t.

    H 的 MLE 是第二组回归的残差的样本方差-协方差矩阵,H^=(1/T)t=1Tv^2tv^2t

    注意与第二组回归相关的总体残差 v2t 与第一组回归的总体残差不相关。这是因为 v2t=y2tE(y2ty1t,xt) 在构造上与 y1txt 不相关,而 ε1ty1txt 的线性函数。类似地,与第二组回归相关的 OLS 样本残差

    v^2ty2td^D^0y1tD^1x1tD^2x2t,

    在构造上与 y1t、常数项和 xt 正交。由于与第一组回归相关的 OLS 样本残差 ε^1t 是这些相同元素的线性函数,v^2t 在构造上与 ε^1t 正交。

    Maximum Likelihood Estimation of a VAR Characterized by Block Exogeneity

    现在考虑在约束 A2=0 下系统的最大似然估计。假设我们将 (d,D0,D1,D2,H) 而不是 (c2,B1,B2,Ω21,Ω22) 视为第二个方程的兴趣参数,并且我们的目标为选择 (c1,A1,Ω11,d,D0,D1,D2,H) 的值以最大化似然函数。对于此参数化,A2 的值不影响 [11.3.16] 中 2t 的值。因此,c1,A1Ω11 的全信息最大似然估计可以仅基于 [11.3.1] 的受限版本回归:

    (11.3.19)y1t=c1+A1x1t+ε1t.

    c^1(0),A^1(0),Ω^11(0) 表示这些受限回归的估计。系统其他参数 (d,D0,D1,D2,H) 的最大似然估计继续由 [11.3.18] 的无限制 OLS 估计给出,估计记为 (d^,D^0,D^1,D^2,H^)

    对数似然函数达到的最大值可以通过将 [11.1.32] 应用于 [11.3.14] 找到:

    (11.3.20)L[θ^(0)]=t=1T1t[c^1(0),A^1(0),Ω^11(0)]+t=1T2t[d^,D^0,D^1,D^2,H^]=[(Tn1/2)log(2π)+(T/2)log|Ω^111(0)|(Tn1/2)]+[(Tn2/2)log(2π)+(T/2)log|H^1|(Tn2/2)].

    相比之下,当系统在 A2 上无约束估计时,对数似然达到的值为

    (11.3.21)L(θ^)=t=1T1t[c^1,A^1,A^2,Ω^11]+t=1T2t[d^,D^0,D^1,D^2,H^]=[(Tn1/2)log(2π)+(T/2)log|Ω^111|(Tn1/2)]+[(Tn2/2)log(2π)+(T/2)log|H^1|(Tn2/2)],

    其中 (c^1,A^1,A^2,Ω^11) 表示基于 [11.3.1] 的 OLS 估计。因此,零假设 A2=0 的似然比检验可以基于

    (11.3.22)2{L(θ^)L[θ^(0)]}=T{log|Ω^111|log|Ω^111(0)|}=T{log|Ω^11(0)|log|Ω^11|}.

    这将具有渐近 χ2 分布,自由度等于限制数量。由于 A2(n1×n2p) 矩阵,限制数量为 n1n2p

    因此,为了检验由 y1 表示的 n1 个变量相对于由 y2 表示的 n2 个变量是块外生的零假设,对 y1 的每个元素对常数、y1 的所有元素的 p 个滞后以及 y2 的所有元素的 p 个滞后进行 OLS 回归。设 ε^1t 表示这些回归的日期 t(n1×1) 样本残差向量,Ω^11 它们的方差-协方差矩阵 (Ω^11=(1/T)t=1Tε^1tε^1t)。接下来对 y1 的每个元素对常数和 y1 的所有元素的 p 个滞后进行 OLS 回归。设 ε^1t(0) 表示第二组回归的 (n1×1) 样本残差向量,Ω^11(0) 它们的方差-协方差矩阵。如果

    T{log|Ω^11(0)|log|Ω^11|}

    大于 χ2(n1n2p) 变量的 5% 临界值,则零假设被拒绝,结论是 y2 的某些元素有助于预测 y1

    因此,如果我们的兴趣是估计参数 (c1,A1,Ω11,d,D0,D1,D2,H) 或检验关于块外生的假设,所有需要的是对受影响方程的 OLS 回归。然而,假设我们想要原始参数化的似然参数 (c1,A1,Ω11,c2,B1,B2,Ω21,Ω22) 的全信息最大似然估计。对于第一组方程的参数 (c1,A1,Ω11),MLE 继续由 [11.3.19] 的 OLS 估计给出。第二组的参数可以通过反转方程 [11.3.10] 到 [11.3.13] 从 OLS 估计找到:

    (11.3.23)Ω^21(0)=D^0Ω^11(0)(11.3.24)c^2(0)=d^+Ω^21(0)[Ω^11(0)]1c^1(0)(11.3.25)[B^1(0)]=D^1+Ω^21(0)[Ω^11(0)]1[A^1(0)](11.3.26)[B^2(0)]=D^2(11.3.27)Ω^22(0)=H^+Ω^21(0)[Ω^11(0)]1Ω^12(0).

    因此,[11.3.2] 的原始参数化的最大似然估计通过结合 [11.3.19] 和 [11.3.18] 的 OLS 估计从这些方程找到。

    Geweke's Measure of Linear Dependence

    上一小节根据 p 阶 VAR [11.3.1] 和 [11.3.2] 建模了 (n1×1) 向量 y1t(n2×1) 向量 y2t 之间的关系,其中新息项的方差-协方差矩阵由下式给出:

    E[ε1tε1tε1tε2tε2tε1tε2tε2t]=[Ω11Ω12Ω21Ω22].

    为了检验 y1 相对于 y2 是块外生的零假设,我们建议计算 [11.3.22] 中的统计量:

    (11.3.28)T{log|Ω^11(0)|log|Ω^11|}χ2(n1n2p),

    其中 Ω^11 是 [11.3.1] 的 OLS 估计的残差的方差-协方差矩阵,Ω^11(0) 是当回归中省略 y2 的滞后值(即在 [11.3.1] 中 A2=0)时 [11.3.1] 的 OLS 估计的残差的方差-协方差矩阵。

    显然,为了检验平行的零假设 y2 相对于 y1 是块外生的,我们计算

    (11.3.29)T{log|Ω^22(0)|log|Ω^22|}χ2(n2n1p),

    其中 Ω^22 是 [11.3.2] 的 OLS 估计的残差的方差-协方差矩阵,Ω^22(0) 是当回归中省略 y1 的滞后值(即在 [11.3.2] 中 B1=0)时 [11.3.2] 的 OLS 估计的残差的方差-协方差矩阵。

    最后,考虑在限制 y1y2 之间完全没有关系的约束下 VAR 的最大似然估计,即限制 A2=0,B1=0Ω21=0。对于此最受限的规范,对数似然变为

    L(θ)=t=1T{(n1/2)log(2π)(1/2)log|Ω11|(1/2)(y1tc1A1x1t)Ω111(y1tc1A1x1t)}+t=1T{(n2/2)log(2π)(1/2)log|Ω22|(1/2)(y2tc2B2x2t)Ω221(y2tc2B2x2t)}

    最大化的值为

    L[θ^(0)]={(Tn1/2)log(2π)(T/2)log|Ω^11(0)|(Tn1/2)}+{(Tn2/2)log(2π)(T/2)log|Ω^22(0)|(Tn2/2)}.

    因此,y1y2 之间完全没有关系的零假设的似然比检验由下式给出:

    (11.3.30)2{L(θ^)L[θ^(0)]}=T{log|Ω^11(0)|+log|Ω^22(0)|log|Ω^11Ω^12Ω^21Ω^22|},

    其中 Ω^12 是 [11.3.1] 和 [11.3.2] 的无限制 OLS 估计的残差之间的协方差矩阵。此零假设施加了 A2=0(n1n2p) 个限制、B1=0(n2n1p) 个限制以及 Ω21=0(n2n1) 个限制。因此,[11.3.30] 中的统计量具有 (n1n2)×(2p+1) 个自由度的 χ2 分布。

    Geweke (1982) 提出 [11.3.30] 中的量乘以 (1/T) 作为 y1y2 之间线性依赖程度的度量。注意 [11.3.30] 可以表示为三项之和:

    (11.3.31)T{log|Ω^11(0)|+log|Ω^22(0)|log|Ω^11Ω^12Ω^21Ω^22|}=T{log|Ω^11(0)|log|Ω^11|}+T{log|Ω^22(0)|log|Ω^22|}+T{log|Ω^11|+log|Ω^22|log|Ω^11Ω^12Ω^21Ω^22|}.

    这三项中的第一项,T{log|Ω^11(0)|log|Ω^11|},是从 y2y1 的线性反馈强度的度量,是在 [11.3.28] 中计算的 χ2(n1n2p) 统计量。第二项,T{log|Ω^22(0)|log|Ω^22|},是从 y1y2 的线性反馈强度的类似度量,是在 [11.3.29] 中的 χ2(n2n1p) 统计量。第三项

    T{log|Ω^11|+log|Ω^22|log|Ω^11Ω^12Ω^21Ω^22|},

    是瞬时反馈的度量。这对应于零假设 Ω21=0 的似然比检验,其中 A2B1 无限制,在零假设下具有 χ2(n1n2) 分布。

    因此,[11.3.31] 可用于总结 y1y2 之间任何线性关系的强度并识别该关系的来源。Geweke 展示了如何按频率进一步分解这些度量。

    Maximum Likelihood Estimation Under General Coefficient Constraints

    我们现在讨论向量自回归的最大似然估计,其中存在不能像上一个示例那样以块递归形式表达的约束。受一般排除限制的 VAR 可以视为"看似无关回归"系统,如 Zellner (1962) 最初分析的那样。

    x1t 是包含常数项和出现在 VAR 第一个方程中的变量的滞后的 (k1×1) 向量:

    y1t=x1tβ1+ε1t.

    类似地,设 x2t 表示包含第二个方程的解释变量的 (k2×1) 向量,xnt 表示包含最后一个方程的变量的 (kn×1) 向量。因此,VAR 由方程组组成

    y1t=x1tβ1+ε1t(11.3.32)y2t=x2tβ2+ε2tynt=xntβn+εnt.

    k=k1+k2++kn 表示要估计的系数总数,并将这些收集在 (k×1) 向量中:

    β=[β1β2βn].

    那么 [11.3.32] 中的方程组可以写成向量形式为

    (11.3.33)yt=Xtβ+εt,

    其中 Xt 是以下 (n×k) 矩阵:

    Xt[x1t000x2t000xnt].

    目标是选择 βΩ 以最大化对数似然函数

    (11.3.34)L(β,Ω)=(Tn/2)log(2π)+(T/2)log|Ω1|(1/2)t=1T(ytXtβ)Ω1(ytXtβ).

    这需要选择 β 以最小化

    (11.3.35)t=1T(ytXtβ)Ω1(ytXtβ).

    L 是满足 LL=Ω1 的下三角矩阵(例如,通过 Cholesky 分解)。则 [11.3.35] 可以写成

    (11.3.36)t=1T(ytXtβ)Ω1(ytXtβ)=t=1T(LytLXtβ)(LytLXtβ)=t=1T(y~tX~tβ)(y~tX~tβ),

    其中 y~tLyt

    X~tLXt[x~1tx~2tx~nt].

    但 [11.3.36] 简单地是

    t=1T[(y~1tx~1tβ)2+(y~2tx~2tβ)2++(y~ntx~ntβ)2],

    这通过将 y~itx~it 进行 OLS 回归最小化,将所有方程 (i=1,2,,n) 合并为一个大回归。因此,最大似然估计由下式给出:

    (11.3.37)β^={t=1T[x~1tx~1t+x~2tx~2t++x~ntx~nt]}1{t=1T[x~1ty~1t+x~2ty~2t++x~nty~nt]}.

    注意此合并回归的残差方差在构造上为单位,β^ 的渐近方差-协方差矩阵可以从下式计算:

    E(β^β)(β^β){t=1T[x~1tx~1t+x~2tx~2t++x~ntx~nt]}1.

    构造用于此合并 OLS 回归的变量 y~itx~it 需要知道 L 因此需要知道 ΩβΩ 中的参数可以通过以下迭代程序通过最大似然联合估计。从 yitxitn 个 OLS 回归,形成系数向量的初始估计 β^(0)=(b1,b2,,bn)。使用此形成方差矩阵的初始估计:

    Ω^(0)=(1/T)t=1T[ytXtβ^(0)][ytXtβ^(0)].

    找到矩阵 L^(0) 使得 [L^(0)]L^(0)=[Ω^(0)]1,例如通过 Cholesky 分解,并形成 y~t(0)=L^(0)ytX~t(0)=L^(0)Xt。将 y~it(0)x~it(0) 的合并 OLS 回归,结合 i=1,2,,n,然后产生新估计 β^(1),从中 Ω^(1)=(1/T)t=1T[ytXtβ^(1)][ytXtβ^(1)]。以这种方式迭代将产生最大似然估计 (β^,Ω^),尽管仅一次迭代后的估计与最终 MLE 具有相同的渐近分布(参见 Magnus, 1978)。

    [11.3.37] 中 MLE 的另一种表达式有时被使用。注意

    [x~1tx~1t+x~2tx~2t++x~ntx~nt]=[x~1tx~2tx~nt][x~1tx~2tx~nt]=XtLLXt(11.3.38)=[x1t000x2t000xnt][σ11σ12σ1nσ21σ22σ2nσn1σn2σnn][x1t000x2t000xnt]=[σ11x1tx1tσ12x1tx2tσ1nx1txntσ21x2tx1tσ22x2tx2tσ2nx2txntσn1xntx1tσn2xntx2tσnnxntxnt],

    其中 σij 表示 Ω1 的第 i 行、第 j 列元素。类似地,

    [x~1ty~1t+x~2ty~2t++x~nty~nt]=[x~1tx~2tx~nt][y~1ty~2ty~nt]=XtLLyt(11.3.39)=[x1t000x2t000xnt][σ11σ12σ1nσ21σ22σ2nσn1σn2σnn][y1ty2tynt]=[σ11x1ty1t+σ12x1ty2t++σ1nx1tyntσ21x2ty1t+σ22x2ty2t++σ2nx2tyntσn1xnty1t+σn2xnty2t++σnnxntynt].

    将 [11.3.38] 和 [11.3.39] 代入 [11.3.37],MLE 满足

    (11.3.40)β^=[σ11x1tx1tσ12x1tx2tσ1nx1txntσ21x2tx1tσ22x2tx2tσ2nx2txntσn1xntx1tσn2xntx2tσnnxntxnt]1×[(σ11x1ty1t+σ12x1ty2t++σ1nx1tynt)(σ21x2ty1t+σ22x2ty2t++σ2nx2tynt)(σn1xnty1t+σn2xnty2t++σnnxntynt)],

    其中 表示对 t=1,2,,T 求和。

    第 11.1 节的结果是,当 VAR 没有限制时,最大似然估计通过逐方程 OLS 实现。通过设置 x1t=x2t==xnt,可以将此结果视为 [11.3.40] 的特殊情况,因为此时 [11.3.40] 变为

    β^=[Ω1(xtxt)]1[(Ω1yt)xt]=[Ω(xtxt)1][(Ω1yt)xt]=[In(xtxt)1][ytxt]=[(xtxt)1000(xtxt)1000(xtxt)1][y1txty2txtyntxt]=[b1b2bn],

    如第 11.1 节所示。

    11.4 The Impulse-Response Function

    在方程 [10.1.15] 中,VAR 被写成向量 MA() 形式:

    (11.4.1)yt=μ+εt+Ψ1εt1+Ψ2εt2+.

    因此,矩阵 Ψs 满足

    (11.4.2)yt+sεt=Ψs,

    Ψs 的第 i 行、第 j 列元素识别了日期 tj 个变量的创新项增加一个单位(εjt)对时间 t+si 个变量值(yi,t+s)的后果,并且保持所有其他日期所有其他创新项不变。

    如果 εt 的第一个元素变化了 δ1,同时第二个元素变化了 δ2,……,第 n 个元素变化了 δn,那么这些变化对向量 yt+s 值的累积效应由下式给出:

    (11.4.3)Δyt+s=yt+sε1tδ1+yt+sε2tδ2++yt+sεntδn=Ψsδ,

    其中 δ=(δ1,δ2,,δn)

    第 10.1 节给出了 Ψs 的几个解析特征。数值上找到这些动态乘数的一种简单方法是通过模拟。为了实施模拟,设 yt1=yt2==ytp=0。设 εjt=1 并将 εt 的所有其他元素设为零,然后对日期 t,t+1,t+2, 模拟系统 [11.1.1],其中 cεt+1,εt+2, 都为零。此模拟在日期 t+s 的向量 yt+s 的值对应于矩阵 Ψs 的第 j 列。通过对每个新息项 (j=1,2,,n) 的脉冲进行单独模拟,可以计算 Ψs 的所有列。

    Ψs 的第 i 行、第 j 列元素

    (11.4.4)yi,t+sεjt

    称为脉冲响应函数。它描述了 yi,t+syjt 的一次性脉冲的响应,保持所有其他日期 t 或更早的变量不变。

    这个乘数在某种意义上可以被视为测量 yjyi 的因果效应吗?Granger 因果关系检验的讨论表明,我们应该对此类声明保持警惕。考虑以下问题。设

    xt1=(yt1,yt2,,ytp)

    表示到日期 t1 为止接收到的关于系统的信息。假设我们被告知自回归中第一个变量的日期 ty1t 高于预期,因此 ε1t 为正。这如何指导我们修正对 yi,t+s 的预测?换句话说,什么是

    (11.4.5)E^(yi,t+sy1t,xt1)y1t?

    这个问题的答案仅在 E(εtεt)=Ω 是对角矩阵的特殊情况下由 [11.4.4] 在 j=1 时给出。在 εt 的元素彼此同期相关的更一般情况下,ε1t 为正的事实为我们提供了关于 ε2t,,εnt 值的一些有用的新信息。这些信息对 yi,t+s 的值有进一步的含义,为了总结这些含义,我们需要计算向量

    E^(εty1t,xt1)y1t

    然后使用 [11.4.3] 计算 εt 的所有元素的这种变化对 yi,t+s 值的影响。

    另外,关于第二个变量 y2t 的新信息的预测修正,超出第一个变量 y1t 中包含的信息。因此,我们计算

    (11.4.6)E^(yi,t+sy2t,y1t,xt1)y2t.

    类似地,对于指定为数字 3 的变量,我们计算

    (11.4.7)E^(yi,t+sy3t,y2t,y1t,xt1)y3t,

    对于变量 n

    (11.4.8)E^(yi,t+synt,yn1,t,,y1t,xt1)ynt.

    最后一个量对应于 εntε1t,,εn1,t 为常数时的效应,简单地由 Ψs 的第 i 行、第 n 列元素给出。

    [11.4.5] 到 [11.4.8] 中的递归信息排序非常常用。对于此排序,指示的乘数可以通过简单算法从移动平均系数 (Ψs)εt 的方差-协方差矩阵 (Ω) 计算。回忆第 4.4 节,对于任何实对称正定矩阵 Ω,存在一个唯一的下三角矩阵 A,主对角线上为 1,以及一个唯一的对角矩阵 D,主对角线上为正项,使得

    (11.4.9)Ω=ADA.

    使用此矩阵 A,我们可以从下式构造 (n×1) 向量 ut

    (11.4.10)utA1εt.

    注意,由于 εt 与其自身的滞后或 y 的滞后值不相关,因此 ut 也与其自身的滞后或 y 的滞后值不相关。ut 的元素进一步彼此不相关:

    (11.4.11)E(utut)=[A1]E(εtεt)[A1]=[A1]Ω[A]1=[A1]ADA[A]1=D.

    D 是对角矩阵,验证了 ut 的元素彼此不相关。D(j,j) 元素给出 ujt 的方差。

    如果将 [11.4.10] 的两边左乘 A,结果是

    (11.4.12)Aut=εt.

    显式写出 [11.4.12] 表示的方程:

    (11.4.13)[1000a21100a31a3210an1an2an31][u1tu2tu3tunt]=[ε1tε2tε3tεnt].

    因此,u1t 简单地是 ε1t。[11.4.13] 的第 j 行说明

    ujt=εjtaj1u1taj2u2taj,j1uj1,t.

    但由于 ujtu1t,u2t,,uj1,t 不相关,因此 ujt 可以视为将 εjt 投影到 u1t,u2t,,uj1,t 上的残差:

    (11.4.14)E^(εjtu1t,u2t,,uj1,t)=aj1u1t+aj2u2t++aj,j1uj1,t.

    ujt 不相关的事实进一步意味着将 εjt 投影到 (u1t,u2t,,uj1,t) 上时 u1t 的系数与将 εjt 仅投影到 u1t 上时 u1t 的系数相同:

    (11.4.15)E^(εjtu1t)=aj1u1t.

    回忆从 [11.4.13] 有 ε1t=u1t,我们看到关于 ε1t 值的新信息将导致我们修正对 εjt 的预测,修正量为

    (11.4.16)E^(εjtε1t)ε1t=E^(εjtu1t)u1t=aj1.

    现在 ε1ty1tE^(y1txt1)εjtyjtE^(yjtxt1)。更新线性投影的公式 [4.5.14],将 yjt 投影到 y1txt1 上时 y1t 的系数与将 εjt 投影到 ε1t 上时 ε1t 的系数相同。因此,

    (11.4.17)E^(εjty1t,xt1)y1t=aj1.

    将这些方程对 j=1,2,,n 组合成向量:

    (11.4.18)E^(εty1t,xt1)y1t=a1,

    其中 a1 表示 A 的第一列:

    a1=[1a21a31an1].

    将 [11.4.18] 代入 [11.4.3],关于 y1t 的新信息(超出 xt1 中包含的信息)对 yt+s 的影响由下式给出:

    E^(yt+sy1t,xt1)y1t=Ψsa1.

    类似地,变量 u2t 表示 y2t 中的新信息,超出 (y1t,xt1) 中包含的信息。此信息当然不会导致我们改变对 ε1t 的评估(我们从 y1txt1 确定地知道),但从 [11.4.14] 将导致我们修正对 j=2,3,,nεjt 的估计,修正量为

    E^(εjtu2t,u1t)u2t=aj2.

    将此代入 [11.4.3],我们得出结论:

    E^(yt+sy2t,y1t,xt1)y2t=Ψsa2,

    其中

    a2=[01a32a42an2].

    一般来说,

    (11.4.19)E^(yt+syjt,yj1,t,,y1t,xt1)yjt=Ψsaj,

    其中 aj 表示 [11.4.9] 中定义的矩阵 A 的第 j 列。

    [11.4.19] 中的量是总体矩,使用 [11.4.9] 从总体参数 ΨsΩ 构造。对于大小为 T 的给定观测样本,我们将通过 OLS 估计自回归系数 Φ^1,,Φ^p 并通过模拟估计系统构造 Ψ^s。OLS 估计还将提供估计 Ω^=(1/T)t=1Tε^tε^t,其中 ε^t 的第 i 个元素是日期 t 的 VAR 中第 i 个方程的 OLS 样本残差。然后可以使用第 4.4 节中描述的算法从 Ω^ 构造满足 Ω^=A^D^A^ 的矩阵 A^D^。注意向量 u^t=A^1ε^t 的元素在构造上彼此正交:

    (1/T)t=1Tu^tu^t=(1/T)t=1TA^1ε^tε^t(A^1)=A^1Ω^(A^1)=D^.

    [11.4.19] 的样本估计则为

    (11.4.20)Ψ^sa^j,

    其中 a^j 表示矩阵 A^ 的第 j 列。

    [11.4.20] 称为正交化脉冲响应函数。它基于将原始 VAR 新息项 (ε1t,,εnt) 分解为一组不相关的分量 (u1t,,unt) 并计算 ujt 的单位脉冲对 yt+s 的影响。这些乘数描述了关于 yjt 的新信息如何导致我们修正对 yt+s 的预测,尽管"新"信息的隐含定义对每个变量 j 都不同。

    为什么对每个变量进行不同处理?显然,如果 VAR 被用作一组变量的动态的纯粹无理论总结,我们可以同样容易地将第二个变量标记为 y1t,将第一个变量标记为 y2t,在这种情况下我们将获得不同的动态乘数。通过选择变量的特定递归排序,我们提出一组关于 [11.4.5] 到 [11.4.8] 形式的预测问题。我们是否应该以这种方式正交化以及变量应该如何排序似乎取决于我们首先为什么要提出此类关于预测的问题。我们将在第 11.6 节更深入地探讨这个问题。

    这里我们考虑另外一种形式,回忆 D 是对角矩阵,其 (j,j) 元素是 ujt 的方差。设 D1/2 表示对角矩阵,其 (j,j) 元素是 ujt 的标准差。注意 [11.4.9] 可以写成

    (11.4.21)Ω=AD1/2D1/2A=PP,

    其中

    PAD1/2.

    表达式 [11.4.21] 是矩阵 Ω 的 Cholesky 分解。注意,与 A 一样,(n×n) 矩阵 P 是下三角的,尽管 A 的主对角线上是 1,P 的主对角线上是 ut 的标准差。

    代替 [11.4.10] 中定义的 ut,使用

    vtP1εt=D1/2A1εt=D1/2ut.

    因此,vjt 只是 ujt 除以其标准差 djjvjt 增加一个单位与 ujt 增加一个标准差相同。

    代替动态乘数 yi,t+s/ujt,然后使用 yi,t+s/vjt。这些乘数之间的关系显然是

    yt+svjt=yt+sujtdjj=Ψsajdjj.

    ajdjj 只是 AD1/2 的第 j 列,这是 Cholesky 因子矩阵 P 的第 j 列。将 P 的第 j 列表示为 pj,我们有

    (11.4.22)yt+svjt=Ψspj.

    表达式 [11.4.22] 只是 [11.4.19] 乘以常数 Var(ujt)。表达式 [11.4.19] 给出 yjt 增加一个单位的影响,其中单位是 yjt 本身测量的单位。表达式 [11.4.22] 给出如果 yjt 增加 Var(ujt) 个单位时的影响。

    11.5 Variance Decomposition

    方程 [10.1.14] 和 [10.1.16] 将 VAR 的 s 期预测误差识别为

    (11.5.1)yt+sy^t+st=εt+s+Ψ1εt+s1+Ψ2εt+s2++Ψs1εt+1.

    因此,此 s 期预测的均方误差为

    (11.5.2)MSE(y^t+st)=E[(yt+sy^t+st)(yt+sy^t+st)]=Ω+Ψ1ΩΨ1+Ψ2ΩΨ2++Ψs1ΩΨs1,

    其中

    (11.5.3)Ω=E(εtεt).

    现在让我们考虑每个正交化扰动 (u1t,,unt) 如何影响 MSE。将 [11.4.12] 写成

    (11.5.4)εt=Aut=a1u1t+a2u2t++anunt,

    其中,如前所述,aj 表示 [11.4.9] 中给出的矩阵 A 的第 j 列。 ujt 是不相关的,将方程 [11.5.4] 右乘其转置并取期望产生

    (11.5.5)Ω=E(εtεt)=a1a1Var(u1t)+a2a2Var(u2t)++ananVar(unt),

    其中 Var(ujt) 是 [11.4.9] 中矩阵 D 的第 j 行、第 j 列元素。将 [11.5.5] 代入 [11.5.2],s 期预测的 MSE 可以写成 n 项之和,每一项来自扰动 ujt

    (11.5.6)MSE(y^t+st)=j=1n{Var(ujt)[ajaj+Ψ1ajajΨ1+Ψ2ajajΨ2++Ψs1ajajΨs1]}.

    使用此表达式,我们可以计算第 j 个正交化创新对 s 期预测的 MSE 的贡献:

    Var(ujt)[ajaj+Ψ1ajajΨ1+Ψ2ajajΨ2++Ψs1ajajΨs1].

    同样,这个量通常取决于变量的排序。

    对于协方差平稳的 VAR,当 s 时,MSE(y^t+st)Γ0,向量 yt 的无条件方差。因此,[11.5.6] 允许通过让 s 变得足够大来计算 yi 的总方差中由于扰动 uj 引起的部分。

    或者,回忆 ajVar(ujt) 等于 pj,Cholesky 因子 P 的第 j 列,结果 [11.5.6] 可以等价地写成

    (11.5.7)MSE(y^t+st)=j=1n[pjpj+Ψ1pjpjΨ1+Ψ2pjpjΨ2++Ψs1pjpjΨs1].

    11.6 Vector Autoregressions and Structural Econometric Models

    Pitfalls in Estimating Dynamic Structural Models

    向量自回归在第 10.1 节中被引入,作为包含在向量 yt 中的 n 个不同变量之间动态相互关系的统计描述。此描述没有使用关于这些变量预期如何相关的先验理论思想,因此不能用于检验我们的理论或根据经济原理解释数据。本节探讨 VAR 与结构计量经济学模型之间的关系。

    假设我们想估计一个货币需求函数,该函数将公众持有现金的意愿表达为收入和利率水平的函数:

    (11.6.1)MtPt=β0+β1Yt+β2It+β3(Mt1Pt1)+vtD.

    这里,Mt 是日期 t 公众持有的名义货币余额的对数,Pt 是总价格水平的对数,Yt 是实际 GNP 的对数,It 是名义利率。参数 β1β2 表示收入和利率对期望现金持有的影响。货币余额对收入变化的部分调整被认为立即发生,进一步的调整在后续期间发生。参数 β3 表征了此部分调整。扰动 vtD 表示除收入和利率外影响货币需求的因素。

    曾经常见的做法是用 Cochrane-Orcutt 调整估计此类货币需求方程以处理一阶序列相关。此程序背后的隐含假设是

    (11.6.2)vtD=ρvt1D+utD,

    其中 utD 是白噪声。将方程 [11.6.2] 写成 (1ρL)vtD=utD 并将 [11.6.1] 的两边乘以 (1ρL)

    (11.6.3)MtPt=(1ρ)β0+β1Ytβ1ρYt1+β2Itβ2ρIt1+(β3+ρ)(Mt1Pt1)β3ρ(Mt2Pt2)+utD.

    方程 [11.6.3] 是以下形式的受限版本:

    (11.6.4)MtPt=α0+α1Yt+α2Yt1+α3It+α4It1+α5(Mt1Pt1)+α6(Mt2Pt2)+utD,

    其中七个参数 (α0,α1,,α6) 在 [11.6.3] 中被限制为底层五个参数 (ρ,β0,β1,β2,β3) 的非线性函数。因此,可以通过比较 [11.6.3] 的拟合与 [11.6.4] 的无约束估计的拟合来检验 [11.6.2] 的假设。

    诸如 [11.6.1] 和 [11.6.2] 的规范隐含地对动态施加了许多限制,这些限制在经济理论基础上几乎没有或没有理由。在依赖 [11.6.1] 和 [11.6.2] 的推断之前,似乎应该将该模型与更一般的规范(如

    (11.6.5)Mt=k1+β12(0)Pt+β13(0)Yt+β14(0)It+β11(1)Mt1+β12(1)Pt1+β13(1)Yt1+β14(1)It1+β11(2)Mt2+β12(2)Pt2+β13(2)Yt2+β14(2)It2++β11(p)Mtp+β12(p)Ptp+β13(p)Ytp+β14(p)Itp+utD

    )进行检验。

    与方程 [11.6.1] 一样,[11.6.5] 中的规范被视为结构货币需求方程;β13(0)β14(0) 被解释为当前收入和利率对期望货币持有的影响,utD 表示影响货币需求的因素,除通货膨胀、收入和利率外。与 [11.6.1] 相比,[11.6.5] 中的规范推广了误差项 vtD 的动态行为、部分调整过程以及价格水平对期望货币持有的影响。

    尽管 [11.6.5] 放宽了 [11.6.1] 隐含的许多可疑的动态限制,但由于联立方程偏差,仍然不可能通过 OLS 估计 [11.6.5]。[11.6.5] 的 OLS 估计将总结货币、价格水平、收入和利率之间的相关性。公众的货币需求调整是这些变量相关的一个原因,但不是唯一的原因。例如,每个时期,中央银行可能将利率 It 调整到与其政策目标一致的水平,这可能取决于收入、利率、价格水平和货币供应的当前和滞后值:

    (11.6.6)It=k4+β41(0)Mt+β42(0)Pt+β43(0)Yt+β41(1)Mt1+β42(1)Pt1+β43(1)Yt1+β44(1)It1+β41(2)Mt2+β42(2)Pt2+β43(2)Yt2+β44(2)It2++β41(p)Mtp+β42(p)Ptp+β43(p)Ytp+β44(p)Itp+utC.

    这里,例如,β42(0) 捕获当前价格水平对中央银行试图实现的利率的影响。扰动 utC 捕获不能描述为货币、价格水平、收入和利率的当前和滞后值的确定性函数的变化。如果货币需求扰动 utD 异常大,这将使 Mt 异常大。如果 β41(0)>0,这将导致 It 也异常大,在这种情况下,utD 将与方程 [11.6.5] 中的解释变量 It 正相关。因此,[11.6.5] 不能通过 OLS 估计。

    中央银行政策和 It 的内生性也不是唯一需要关注联立方程偏差的原因。货币需求扰动和中央银行政策的变化也对总产出和价格水平有影响,因此 [11.6.5] 中的 YtPt 也是内生的。例如,可以假设一个总需求方程,将产出水平与货币供应、价格水平和利率相关:

    (11.6.7)Yt=k3+β31(0)Mt+β32(0)Pt+β34(0)It+β31(1)Mt1+β32(1)Pt1+β33(1)Yt1+β34(1)It1+β31(2)Mt2+β32(2)Pt2+β33(2)Yt2+β34(2)It2++β31(p)Mtp+β32(p)Ptp+β33(p)Ytp+β34(p)Itp+utA,

    其中 utA 表示影响总需求的其他因素。类似地,总供给曲线可能将总价格水平与正在研究的其他变量相关。这种推理的逻辑结论是,[11.6.5] 中所有日期 t 的解释变量都应该被视为内生的。

    Relation Between Dynamic Structural Models and Vector Autoregressions

    方程组 [11.6.5] 到 [11.6.7] 可以写成向量形式为

    (11.6.8)B0yt=k+B1yt1+B2yt2++Bpytp+ut,

    其中

    yt=(Mt,Pt,Yt,It)ut=(utD,utS,utA,utC)B0=[1β12(0)β13(0)β14(0)β21(0)1β23(0)β24(0)β31(0)β32(0)1β34(0)β41(0)β42(0)β43(0)1]k=(k1,k2,k3,k4)

    Bs(4×4) 矩阵,其第 i 行、第 j 列元素由 βij(s) 给出,s=1,2,,p(n×1) 向量 yt 的一大类结构模型可以写成 [11.6.8] 的形式。

    推广 [11.6.3] 中的论证,假设包含了足够数量的 p 个滞后,并且矩阵 Bs 被定义使得 ut 是向量白噪声。如果相反,例如,ut 遵循 r 阶 VAR,其中

    ut=F1ut1+F2ut2++Frutr+et,

    那么我们可以将 [11.6.8] 左乘 (InF1LF2L2FrLr) 以得到与 [11.6.8] 相同基本形式的系统,其中 p 替换为 (p+r)ut 替换为白噪声扰动 et

    如果将 [11.6.8] 的两边左乘 B01,结果是

    (11.6.9)yt=c+Φ1yt1+Φ2yt2++Φpytp+εt,

    其中

    (11.6.10)c=B01k(11.6.11)Φs=B01Bsfor s=1,2,,p(11.6.12)εt=B01ut.

    假设 [11.6.8] 被参数化得足够丰富,使得 ut 是向量白噪声,那么 εt 也将是向量白噪声,[11.6.9] 将被识别为动态结构系统 [11.6.8] 的向量自回归表示。因此,VAR 可以被视为一般动态结构模型的简化形式。

    Interpreting Impulse-Response Functions

    在第 11.4 节中,我们计算了脉冲响应函数

    (11.6.13)yt+sεjt.

    这个量描述了第 j 个变量的创新对系统中每个变量未来值的影响。根据 [11.6.12],VAR 创新 εjt 是结构扰动 ut 的线性组合。例如,可能结果是

    ε1t=0.3utD0.6utS+0.1utA0.5utC.

    在这种情况下,如果公众持有的现金大于使用 VAR 预测的值(ε1t 为正),这可能是因为公众对现金的需求高于通常与当前收入和利率水平相关的水平(即 utD 为正)。或者,ε1t 可能为正,因为中央银行选择放松信贷(utC 为负),或各种其他因素。一般来说,ε1t 表示对经济中任何变量重要的所有不同影响的组合。

    相比之下,如果我们能够计算

    (11.6.14)yt+sutC,

    这将非常有意义。表达式 [11.6.14] 识别了如果中央银行比通常更紧缩信贷时对经济的动态后果,是描述货币政策对经济影响的关键量。

    第 11.4 节还讨论了正交化脉冲响应函数的计算。对于 Ω=E(εtεt),我们找到了一个下三角矩阵 A 和一个对角矩阵 D,使得 Ω=ADA。然后我们构造向量 A1εt 并计算此向量的每个元素的变化对 y 未来值的影响。

    回忆从 [11.6.12] 结构扰动 ut 通过下式与 VAR 新息 εt 相关:

    (11.6.15)ut=B0εt.

    假设结构参数矩阵 B0 恰好等于矩阵 A1。那么正交化新息将与真正的结构扰动一致:

    (11.6.16)ut=B0εt=A1εt.

    在这种情况下,第 11.4 节中描述的方法可用于找到诸如 [11.6.14] 等重要问题的答案。

    是否有任何理由希望 B0A1 是相同的矩阵?由于 A 是下三角的,这显然要求 B0 是下三角的。在示例 [11.6.8] 中,这将要求 P,YI 的当前值不影响货币需求,M 的当前值但不包括 YI 的当前值进入总供给曲线,等等。这样的假设相当不寻常,尽管可能有另一种方式来排序变量,使得递归结构更合理。例如,凯恩斯主义者可能认为价格仅以滞后方式响应其他经济变量,因此总供给方程中当前变量的系数都为零。也许货币和利率仅以滞后方式影响总需求,因此它们的当前值被排除在总需求方程之外。人们可能进一步认为利率也仅以滞后方式影响期望货币持有。由于大多数中央银行非常仔细地监控当前经济状况,也许所有当前值都应该包含在 It 的方程中。这些假设建议将变量排序为 yt=(Pt,Yt,Mt,It),对于此排序,结构模型将是

    (11.6.17)[PtYtMtIt]=[k1k2k3k4]+[0000β21(0)000β31(0)β32(0)00β41(0)β42(0)β43(0)0][PtYtMtIt]+[β11(1)β12(1)β13(1)β14(1)β21(1)β22(1)β23(1)β24(1)β31(1)β32(1)β33(1)β34(1)β41(1)β42(1)β43(1)β44(1)][Pt1Yt1Mt1It1]++[β11(p)β12(p)β13(p)β14(p)β21(p)β22(p)β23(p)β24(p)β31(p)β32(p)β33(p)β34(p)β41(p)β42(p)β43(p)β44(p)][PtpYtpMtpItp]+[utSutAutDutC].

    假设存在这样的变量排序,使得 B0 是下三角的。将动态结构模型 [11.6.8] 写成

    (11.6.18)B0yt=Γxt+ut,

    其中

    Γ[kB1B2Bp]xt[1yt1yt2ytp].

    进一步假设结构方程中的扰动是序列不相关的且彼此不相关:

    (11.6.19)E(utuτ)={Dfor t=τ0otherwise,

    其中 D 是对角矩阵。VAR 是动态结构模型 [11.6.18] 的简化形式,可以写成

    (11.6.20)yt=Πxt+εt,

    其中

    (11.6.21)Π=B01Γ(11.6.22)εt=B01ut.

    Ω 表示 εt 的方差-协方差矩阵,[11.6.22] 意味着

    (11.6.23)Ω=E(εtεt)=B01E(utut)(B01)=B01D(B01).

    注意,如果对动态结构模型的唯一限制是 B0 是下三角的,主对角线上为单位系数,且 D 是对角的,那么结构模型恰好被识别。要看到这一点,注意这些限制意味着 B01 也必须是下三角的,主对角线上为单位系数。回忆第 4.4 节,给定任何正定对称矩阵 Ω,存在一个唯一的下三角矩阵 A,主对角线上为 1,以及一个唯一的对角矩阵 D,主对角线上为正项,使得 Ω=ADA。因此,总是可以找到满足 [11.6.23] 的所需形式的唯一值 B01D。此外,任何这种形式的 B0 矩阵都是非奇异的,因此 [11.6.21] 中的 Γ 可以从 B0Π 唯一计算为 Γ=B0Π。因此,给定简化形式参数(ΠΩ)的任何允许值,存在指定形式的唯一结构参数值(B0ΓD),这确立了结构模型恰好被识别。

    由于模型恰好被识别,(B0,Γ,D) 的全信息最大似然(FIML)估计可以通过首先对简化形式参数 (Π,Ω) 最大化似然函数,然后使用从简化形式参数到结构参数的唯一映射来找到结构参数。Π 的最大似然估计通过将 yt 的元素对 xt 进行 OLS 回归找到,Ω 的 MLE 从这些回归的残差的方差-协方差矩阵获得。然后从 Ω^ 的三角分解找到估计 B^01D^。然而,这正是第 11.4 节中计算正交化新息时描述的程序。那里描述的估计 A^ 因此与 B01 的 FIML 估计相同。正交化残差向量 ut=A1εt 将对应于结构扰动向量,正交化脉冲响应系数将给出由 ut 表示的结构事件的动态后果,前提是结构模型如 [11.6.17] 中那样是下三角的。

    Nonrecursive Structural VARs

    即使结构模型不能写成下三角形式,也可能使用类似于方程 [11.6.23] 中的想法对 VAR 给出结构解释。具体来说,结构模型对 B0D 指定一组限制,我们可以尝试找到满足这些限制的值,使得 B01D(B01)=Ω

    为了说明,再次考虑方程 [9.3.2] 和 [9.3.3] 中讨论的供需模型。在该规范中,数量 (qt) 和价格 (pt) 是内生变量,天气 (wt) 是外生的,并且假设两个扰动都是 i.i.d.。此模型的结构 VAR 方法将通过向方程 [9.3.2] 和 [9.3.3] 添加所有三个变量的 p 个滞后,以及添加第三个方程来描述天气的动态行为,允许相当一般的动态。天气可能不依赖于市场行为,因此对于此示例,第三个方程将只是单变量自回归。模型将是

    (11.6.24)qt=βpt+β11(1)qt1+β12(1)pt1+β13(1)wt1+β11(2)qt2+β12(2)pt2+β13(2)wt2++β11(p)qtp+β12(p)ptp+β13(p)wtp+utd(11.6.25)qt=γpt+hwt+β21(1)qt1+β22(1)pt1+β23(1)wt1+β21(2)qt2+β22(2)pt2+β23(2)wt2++β21(p)qtp+β22(p)ptp+β23(p)wtp+uts(11.6.26)wt=β33(1)wt1+β33(2)wt2++β33(p)wtp+utw.

    然后我们可以将 (utd,uts,utw) 视为白噪声向量,其对角方差-协方差矩阵由 D 给出。这是结构模型 [11.6.18] 的一个示例,其中

    (11.6.27)B0=[1β01γh001].

    没有办法排序变量以使矩阵 B0 是下三角的。然而,方程 [11.6.22] 表明结构扰动 ut 通过 εt=B01ut 与 VAR 残差 εt 相关。因此,如果 B0 通过最大似然估计,那么可以如第 11.4 节中那样计算脉冲响应函数,其中 A 替换为 B01,结果将给出每个结构扰动对系统变量后续值的影响。具体来说,

    εtut=B01

    因此第 j 个结构扰动 ujtεt 的影响由 bj 给出,B01 的第 j 列。因此,我们将计算

    yt+sujt=yt+sεtεtujt=Ψsbj

    对于 ΨsMA() 表示 [11.4.1] 的第 s 个滞后的 (n×n) 系数矩阵。

    FIML Estimation of a Structural VAR with Unrestricted Dynamics

    如果对 [11.6.18] 中滞后变量的系数 Γ 没有限制,FIML 估计特别简单。例如,这将要求在天气方程 [11.6.26] 中包含 ptjqtj 的滞后值。使用 [11.6.23],系统 [11.6.18] 的对数似然函数可以写成

    (11.6.28)L(B0,D,Π)=(Tn/2)log(2π)(T/2)log|B01D(B01)|(1/2)t=1T[ytΠxt][B01D(B01)]1[ytΠxt].

    如果对滞后动态没有限制,这通过对 ytxt 进行 OLS 回归来最大化 Π。如 [11.1.25] 中那样将此估计代入 [11.6.28] 产生

    (11.6.29)L(B0,D,Π^)=(Tn/2)log(2π)(T/2)log|B01D(B01)|(1/2)t=1Tε^t[B01D(B01)]1ε^t.

    (11.6.30)t=1Tε^t[B01D(B01)]1ε^t=t=1Ttrace{ε^t[B01D(B01)]1ε^t}=t=1Ttrace{[(B01D(B01)]1ε^tε^t}=trace{[(B01D(B01)]1TΩ^}=T×trace{(B0D1B0)Ω^}.

    此外,

    (11.6.31)log|B01D(B01)|=log{|B01||D||B01|}=log|B0|2+log|D|.

    将 [11.6.31] 和 [11.6.30] 代入 [11.6.29],结构参数的 FIML 估计通过选择 B0D 以最大化

    (11.6.32)L(B0,D,Π^)=(Tn/2)log(2π)+(T/2)log|B0|2(T/2)log|D|(T/2)trace{(B0D1B0)Ω^}.

    使用类似于用于分析 [11.1.25] 的计算,可以证明如果存在满足 B01D(B01)=Ω 的所需形式的唯一矩阵 B0D,那么最大化 [11.6.32] 将产生满足

    (11.6.33)B^01D^(B^01)=Ω^

    的估计 B^0D^。这是一个非线性方程组,[11.6.32] 的数值最大化提供了找到此方程组解的方便的一般方法。

    Identification of Structural VARs

    [11.6.32] 的唯一最大值的存在需要识别性的阶条件和秩条件。阶条件是 B0D 的未知参数不超过 Ω。由于 Ω 是对称的,它可以由 n(n+1)/2 个不同的值总结。如果 D 是对角的,它需要 n 个参数,这意味着 B0 可以具有不超过 n(n1)/2 个自由参数。对于 [11.6.24] 到 [11.6.26] 的供需示例,n=3,[11.6.27] 中的矩阵 B03(31)/2=3 个自由参数 (β,γ,h)。因此,该示例满足识别的阶条件。

    即使满足阶条件,模型可能仍然未被识别。例如,假设

    B0=[1β01γ0001].

    尽管此规范满足阶条件,但它不满足秩条件,因为如果 βγσd2σs2 一起交换,似然函数的值将不变。

    为了表征秩条件,假设 B0nB 个元素必须估计;将这些收集在 (nB×1) 向量 θB 中。识别假设可以表示为已知的 (n2×nB) 矩阵 SB 和已知的 (n2×1) 向量 sB,对于它们

    (11.6.34)vec(B0)=SBθB+sB.

    类似地,将 D 的未知元素收集在 (nD×1) 向量 θD 中,其中

    (11.6.35)vec(D)=SDθD+sD

    对于 (n2×nD) 矩阵 SD(n2×1) 向量 sD

    由于 [11.6.33] 是关联两个对称矩阵的方程,有 nn(n+1)/2 个独立条件,表示为

    (11.6.36)vech(Ω)=vech([B0(θB)]1[D(θD)]{[B0(θB)]1}).

    将 [11.6.36] 的右边表示为 f(θB,θD),其中 f:(RnB×RnD)Rn

    (11.6.37)vech(Ω)=f(θB,θD).

    附录 11.B 显示此函数的 [n×(nB+nD)] 导数矩阵由下式给出:

    (11.6.38)J=[vech(Ω)θBvech(Ω)θD]=[[2Dn+(ΩB01)SB]Dn+[(B01)(B01)]SD],

    其中 Dn+ 是 [11.1.45] 中定义的 (n×n2) 矩阵。

    假设 [11.6.38] 中矩阵的列线性相关;也就是说,假设存在非零 [(nB+nD)×1] 向量 λ 使得 Jλ=0。这意味着如果将 λ 的小倍数添加到 (θB,θD),模型将隐含数据的相同概率分布。我们将没有基础来区分 (θB,θD) 的这些替代值,这意味着模型将未被识别。

    因此,结构 VAR 识别的秩条件要求 [11.6.38] 中矩阵 J(nB+nD) 列线性无关。阶条件是 J 的行数(n=n(n+1)/2)至少与列数一样大。

    Structural VAR with Restrictions on Π

    [11.6.24] 到 [11.6.26] 的供需示例不满足 [11.6.32] 推导背后的假设,因为 [11.6.26] 施加了限制,即 pq 的滞后值不属于天气方程。在施加此类限制的情况下,Π 的 FIML 估计不再通过 OLS 获得,系统参数必须如第 11.3 节中描述的那样估计。作为替代,[11.6.24] 到 [11.6.26] 的 OLS 估计仍将给出 Π 的一致估计,这些回归的残差的方差-协方差矩阵将提供一致估计 Ω^。仍然可以在 [11.6.32] 中使用此估计,由此产生的最大化问题将给出 B0D 的合理估计。

    11.7 Standard Errors for Impulse-Response Functions

    Standard Errors for Nonorthogonalized Impulse-Response Function Based on Analytical Derivatives

    第 11.4 节讨论了如何从自回归系数的知识构造 Ψs,滞后 s 的脉冲响应系数矩阵。在实践中,自回归系数不是确定已知的,必须通过 OLS 回归估计。当使用自回归系数的估计值计算 Ψs 时,报告估计 Ψ^s 的隐含标准误是有用的。

    采用命题 11.1 中的记号,设 k=np+1 表示 VAR 每个方程中的系数数量,并设 πvec(Π) 表示所有方程的 (nk×1) 参数向量;π 的前 k 个元素给出第一个方程的常数项和自回归系数,π 的下一个 k 个元素给出第二个方程的参数,依此类推。设 ψsvec(Ψs) 表示与滞后 s 相关的 (n2×1) 移动平均系数向量。ψs 的前 n 个元素由 Ψs 的第一行给出,识别 y1,t+sεt 的响应。ψs 的下一个 n 个元素由 Ψs 的第二行给出,识别 y2,t+sεt 的响应,依此类推。给定 π 中自回归系数的值,可以模拟 VAR 以计算 ψs。因此,ψs 可以被视为 π 的非线性函数,由函数 ψs(π) 表示,ψs:RnkRn2

    脉冲响应系数通过用 OLS 估计 π^T 替换 π 来估计,生成估计 ψ^s,T=ψs(π^T)。回忆在命题 11.1 的条件下,T(π^Tπ)LX,其中

    (11.7.1)XN(0,(ΩQ1)).

    然后可以通过应用命题 7.4 计算 ψ^s 的标准误:

    T(ψ^s,Tψs)LGsX,

    其中

    (11.7.2)Gs=ψs(π)π.

    也就是说,

    (11.7.3)T(ψ^s,Tψs)LN(0,Gs(ΩQ1)Gs).

    估计脉冲响应系数的标准误由 (1/T)G^s,T(Ω^TQ^T1)G^s,T 的相应对角元素的平方根给出,其中

    G^s,T=ψs(π)π|π=π^TQ^T=(1/T)t=1Txtxt.

    为了计算 Gs,注意从第 10.1 节,Ψs 满足递归关系:

    Ψs=Φ1Ψs1+Φ2Ψs2++ΦpΨspfor s=1,2,,

    其中 Ψ0=In,且对 s<0Ψs=0。对 π 求导:

    Ψsπ=Φ1Ψs1π+Φ2Ψs2π++ΦpΨspπ+j=1pΦjπΨsj.

    由于 Φj=B01BjΠ=[cΦ1Φ2Φp],导数 Φj/π 可以从 Π/π 计算。对于正交化脉冲响应函数,还需要考虑 ADπ 的依赖性,这通过 Ω 的依赖性发生。标准误的计算因此变得更加复杂,但可以使用数值方法或解析导数进行。